CS336: Stanford lehrt das LLM von Grund auf — warum das besser ist
CS336 zwingt dich, ein LLM von Grund auf zu bauen — ohne API. Die von-Grund-auf-Brille für Architekten: AI-Tools, Lock-in und Vendor-Exit-Klauseln auditieren.
Die schnellste Art, die Kontrolle über ein Tool zu verlieren, ist, nie hineinzuschauen. Stanfords CS336: Language Modeling from Scratch — unterrichtet von Percy Liang und Tatsu Hashimoto — ist ein fünf-Einheiten-Kurs auf einer einzigen Weigerung aufgebaut: du darfst keine API aufrufen. Du baust den Tokenizer, den Transformer, den Optimizer, die Training Loop, die Evaluation Harness — und erst dann trainierst du ein Modell. Der Kurs ist offen nachverfolgbar; Vorlesungen (Mo/Mi, Skilling Auditorium) landen auf einer öffentlichen YouTube-Playlist, die Kursarbeit koordiniert sich über öffentliches Slack. Die Pädagogik entlehnt bewusst dem ‘Betriebssystem von Grund auf bauen’-Kurs. Tiefe vor Breite. Volle Stack-Ownership.
←HEUTE: 2026 — die meiste AI-‘Bildung’ ist ein API-Schlüssel und ein Prompt; CS336 zwingt dich, eine Grössenordnung mehr Code zu schreiben als ein normaler AI-Kurs. →3012: Der Zürich-3012-Horizont braucht Praktizierende, die Modelle innen auditieren, nicht nur ihre Outputs konsumieren. Fulcrum: Du kannst nur lenken, was du rekonstruieren kannst — Verständnis und Verantwortung sind dieselbe Fähigkeit von zwei Enden.
Das Werkzeug: Die öffentlichen Materialien des Kurses leben unter der stanford-cs336 GitHub-Organisation — Assignment-Handouts und Reference-Scaffolding für ein von-Grund-auf-Sprachmodell. Gepflegt wird es von der Stanford NLP / Foundation Models-Gruppe, derselben Linie, die CS224N und CS324 hervorbrachte. Für einen Architekten oder Computational Designer lohnt sich ein Nachmittag, denn hier zerfällt der eine Black Box, der leise in jede AEC-Toolchain kriecht. Du lernst, was ein Tokenizer mit deinem Spec-Text wirklich macht, was ein Optimizer-Schritt kostet, woher das Modell sein Verhalten nimmt — bevor ein Vendor es dir verkauft.
Einrichtung:
# Python 3.11+, a recent PyTorch, and a GPU for training runs (CPU is fine to start)
git clone https://github.com/stanford-cs336/assignment1-basics.git
cd assignment1-basics
pip install -e .
python -m pytest -q # the failing tests ARE your assignment spec
Erste Schritte:
- Führe die Test Suite aus. Jeder rote Test ist eine Komponente, die du implementieren musst — die Spec ist ausführbar, nicht Prosa.
- Beginne mit dem Byte-Pair-Encoding-Tokenizer; trainiere ihn auf einem kleinen Text-Corpus und bestätige den encode/decode Round-Trip.
- Implementiere den Transformer Block (Attention + MLP + Norm) und den Optimizer, dann trainiere ein minimales Modell und beobachte, wie die Loss-Kurve tatsächlich sinkt.
- Debugge Korrektheit zunächst auf der CPU; wechsle zu einer einzelnen GPU nur für den echten Training Run. Ein einzelner B200 kostet auf Modal, Lambda, RunPod und Nebius etwa 5–7$/Stunde — überprüfe aktuelle Preise, bevor du ausgibst.
Der Attention-Mechanismus, den du selbst codieren wirst, ist nicht neu — es ist das 2017er-Diagramm Attention Is All You Need, das per PAZ-eigenem Konzept-Archiv ‘eine ganze Disziplin reorganisierte, indem ein Memory-Engpass durch paralleles Lookup ersetzt wurde.’ CS336s Wert liegt darin, dass du diesen Lookup selbst baust, statt ihn zu importieren.
Der Kontroll-Winkel. Lies den Kurs als Procurement-Dokument. Institutionen, die LLM-Training formalisieren, spiegeln Akademie und Fachgremien — IEEE Spectrum: IEEE hat einen LLM-Kurs zu Design, Sicherheit und Deployment aufgelegt. Zwei Spuren, ein Signal: die Fähigkeit wird akkreditiert, weil die Abhängigkeit strukturell wird. Strukturelle Abhängigkeit ist, wo Lock-in lauert. Das Modell, das du nicht inspizierst, ist das Modell, dessen Standards du nicht hinterfragst, dessen Daten-Provenienz du nicht auditierst, dessen Exit-Kosten du erst beim Verlassen entdeckst. CS336s meistunterschätzte Stufen — Assignment 4 (Common Crawl Cleaning und Filtering), Assignment 3 (Scaling-Law Fitting) — sind die Teile, die kein Vendor zeigt, und die Teile, die EU AI Act-Transparenz-Verpflichtungen zunehmend von dir fordern.
Atelier: Ein Schweizer Studio, das ein LLM über Codes, Specs und IFC-Daten Fine-tuned oder RAG-wrappet, macht — bewusst oder nicht — CS336s Assignment 4 auf seinem Corpus: Data Collection, Filtering, Deduplication. Diese unterschätzte 80% ist, woher PAZ-GPT-Qualität kommt. Bevor du mit einem AI-Vendor unterschreibst, stelle die CS336-Fragen: Was waren die Trainingsdaten? Was misst die Evaluierung? Was ist die Exit-Klausel?
Hack: Dieser Hack lehrt dich, die Reichweite eines Modells zu lesen, bevor du es vertraust — ein AI/ML-Move. Drei Zeilen listen jeden Layer und Parameter-Zahl auf, sodass ein Black Box zur Material-Rechnung wird, die du auditieren kannst.
import torch
sd = torch.load("model.pt", map_location="cpu")
for k, v in sd.items():
print(f"{k:40s} {tuple(v.shape)} {v.numel():,}")
Führe es auf jedem Checkpoint aus, den ein Vendor dir gibt. Wenn sie dir den Checkpoint nicht geben, ist das deine Antwort.
Von wo ich 2077 schreibe: der Schaden war nie das lügende Modell. Es war die Procurement-Voreinstellung, die neun Jahre lang ein nicht audiierbares System in kritischer Infrastruktur hielt, weil niemand das Recht zum Hinterfragen hatte. Wenn du heute einen AI-Vendor für deine Praxis wählst, schreib die Exit-Klausel VOR den Entry-Vertrag — und lern genug vom Innenleben, via ein Kurs wie dieser, um zu wissen, was du unterschreibst. Das ist der eine Move, der die Zukunft offen hält.
Learn-it:
- GitHub: stanford-cs336 — Assignment-Handouts und Scaffolding
- Kurs / Tutorial: Stanford CS336 — Language Modeling from Scratch (Syllabus + YouTube-Playlist)
- Root-Konzept: Vaswani et al., Attention Is All You Need (2017) — das Diagramm, von dem jedes LLM noch abstammt.
- PAZ-Notiz: die ‘von-Grund-auf’-Mentalität ist die Hack-Beat-These — verstehe die Innereien der Pipeline (Tokenizer → Optimizer → Eval) wie eine parametrische oder BIM-Pipeline, nie als Black Box.
QUELLE · ↗
PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy