Ein Vintage-LLM zum Preis eines Mittagessens: Ein 1900-Modell von Grund auf
Wie croqaz ein 340M-LLM mit 1900er Wissensstichtag für ~80 Franken trainierte — eine Schablone für Atelier-Hausmodelle. Datenkuration ist die Arbeit.
Ein Entwickler mit dem Künstlernamen croqaz hat drei Monate lang — jeden einzelnen Tag, Krankheitstage mitgerechnet — an einem Sprachmodell gebaut, das vom Ersten Weltkrieg nichts gehört hat. Es heisst Vintage LLM: nur Englisch, Llama-Architektur, 340 Millionen Parameter, und ein bewusst gesetzter Wissensstichtag von 1900. Die Gesamtrechnung für das ganze Abenteuer: etwa 80 Franken für gemietete GPU-Rechenzeit. Das ist kein Tippfehler, und es ist die interessanteste Zahl dieser Geschichte.
Die ehrliche Rahmung ist wichtig. «Von Grund auf» bedeutet hier, dass croqaz seine eigenen Daten-Processing-Pipelines, Basis-Trainings-Skripte, Fine-Tuning-Skripte und massgeschneiderte Datensätze schrieb — nicht, dass er Matrix-Operationen in Assembly hand-kodiert hat. Er nutzte PyTorch und existierende Tools wie alle anderen, validierte dann jede Funktion von Hand, die er halb im Vibe-Modus mit einem Assistenten zusammengestückelt hatte. Die Abstammungslinie ist auch offen: er würdigt Hayk Grigorian, dessen nur auf Londoner Texten der 1800er trainiertes Modell (ein 90-GB-Korpus) berüchtigt einen echten Strassenprotest von 1834 direkt aus den Trainingsdaten zu Tage förderte. Es gibt jetzt eine kleine Gattung davon — GPT-1900, Mr. Chatterbox, TypewriterLM — Zufalls-Historiker, jedes auf eine Ära begrenzt, um ihre Stimme und blinde Flecken zu erforschen.
←HEUTE: Im Jahr 2026 kann ein einzelner Architekt ein domänengebundenes LLM für die Kosten eines Team-Mittagessens auf gemieteten Cloud-GPUs trainieren. →3012: Jedes Atelier verwahrt sein eigenes Hausmodell, trainiert auf seinem eigenen Kanon, offen inspizierbar und länglebiger als das Atelier, das es schuf. Fulcrum: Das Modell lohnt sich nur, wenn ein 25-Jähriger die Datei noch öffnen kann, wenn der Anbieter nicht mehr existiert — und genau deshalb bauen Sie es jetzt auf offenen Gewichten und gemeinfrei Daten auf.
Das Werkzeug: Das Projekt ist Vintage LLM von croqaz (github.com/croqaz/vintage-LLM), mit dem trainierten Basismodell offen auf HuggingFace veröffentlicht. Es verdient einen Nachmittag eines Computational Designer, aus einem Grund: Es ist das kleinste ehrliche End-to-End-Beispiel des ganzen Stacks — Daten kurieren, einen Tokenizer trainieren, Basis-Training, Fine-Tuning — das Sie tatsächlich in einer Sitzung ausführen und lesen können. Paaren Sie es mit Andrej Karpathys nanoGPT und den Zero-to-Hero-Materialien und Sie haben das De-facto-Curriculum für «wie ist das Ding eigentlich gebaut».
Einrichtung:
git clone https://github.com/croqaz/vintage-LLM
cd vintage-LLM
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
# pull the published 340M base model and inspect it
python -c "from huggingface_hub import snapshot_download;
snapshot_download('croqaz/vintage-LLM-340m-v1-base')"
Erste Schritte:
- Lesen Sie die Daten-Processing-Skripte des Repos zuerst, nicht den Trainings-Code. Dort lebt die echte Arbeit — croqaz sagt, dass Datensatz-Verarbeitung und In-Memory-Deduplizierung die meiste Zeit und den meisten RAM brauchten.
- Führen Sie seine kleine Pre-Training-Config auf dem Spielzeug-Modell (das pythia-14m-Klasse-Experiment) auf Ihrem Computer aus, bevor Sie etwas mieten. Beobachten Sie die Validationsverlust-Kurve.
- Ändern Sie EINE Sache — randomisieren Sie Ihre Datei-Chunks vor dem Tokenisieren. croqaz’s frühe Loss-Kurven spikelten genau, weil saubere Bücher in alphabetischer Reihenfolge tokenisiert wurden und der verrauschte OCR-Satz zuletzt ankam. Reihenfolge vergiftet das Training.
- Erst dann mieten Sie eine GPU (RunPod, Vast.ai) für den grösseren Durchlauf. Compute ist die billige Ware; Ihre kuratierten Daten sind das Asset.
Atelier: Vergessen Sie für einen Moment viktorianische Chatbots — tauschen Sie das Korpus aus. Ein Schweizer Atelier könnte die gleiche 340M-Shell auf sein eigenes Archiv trainieren: jeden Wettbewerbseintrag, jede Bauleitungsnotiz, jeden Text einer Detailzeichnung, jeden BEP. Nicht, um jemanden zu ersetzen, sondern um ein Modell zu haben, das die Sprache des Hauses spricht und die nächste Software-Migration überlebt. Die Methode (kurieren → deduplizieren → klein trainieren → feintrimmen) ist identisch mit der IFC- und BIM-Datenhygiene, die PAZ-Teams bereits durcharbeiten. Die Lektion ist die gleiche, die wir auf der Website predigen: Datenkuration, nicht Modellcode, ist die Arbeit. Schlechte Daten hinein, überzeugter Unsinn heraus.
Hack: Dieser Hack zeigt, wie Sie ein Modell mit Zeitschloss laden und die Antwort von 1900 hören. Das Medium ist ausführbarer Code; die Domäne ist AI/ML — ein drei-Zeilen-Inferenzaufruf gegen die veröffentlichten Gewichte.
from transformers import pipeline
gen = pipeline("text-generation", model="croqaz/vintage-LLM-340m-v1-base")
print(gen("The new railway from London", max_new_tokens=40)[0]["generated_text"])
Ein Ziel: Beweisen Sie sich selbst, dass ein 0,3B-Modell, für den Preis eines Mittagessens trainiert, eine kohärente Weltanschauung hält — eine enge, veraltete, gelegentlich falsche, weil croqaz bewusst auf Alignment verzichtete, um die Epochengenauigkeit zu wahren. Dieser Kompromiss ist der ganze Punkt: Ein zensiertes 1900 ist nicht mehr 1900.
Hier ist der Teil, der über das Hobby hinausreichen soll. Die Gebäude, die in meiner Zeit am schlechtesten alterten, waren nie die hässlichen — es waren die, die niemand reparieren konnte, weil das proprietäre Format nicht mehr zugänglich war. Ein Modell ist auch eine Datei. croqaz baute seines auf offenen Gewichten und gemeinfrei Text auf (vor 1900 ist Gemeingut — eine saubere Illustration legaler Trainingsdaten gemäss EU-Recht). Das ist keine Nostalgie; das ist die einzige Version davon, die ein 25-Jähriger noch im Jahr 2051 öffnen kann. Wenn Sie dieses Quartal ein Hausmodell trainieren, stellen Sie die eine Frage, die veränderte, wie meine Generation baute: wenn der Anbieter verschwindet, kann man die Datei noch laden?
Learn-it:
- Das Projekt-Repo: github.com/croqaz/vintage-LLM — vollständige Pipeline von croqaz, Daten-Skripte zuerst.
- Der Baubericht: Ein Vintage-LLM von Grund auf bauen — das ehrliche Fehler-für-Fehler-Protokoll.
- Selber-Bauen-Kurs: rasbt/LLMs-from-scratch — Sebastian Raschkas Schritt-für-Schritt PyTorch-Implementierung.
- PAZ-Notiz: die gleiche Kurations-und-Deduplizierungs-Disziplin, die hier siegt, ist die Disziplin, die Ihre IFC-Übergänge sauber hält — behandeln Sie das Textarchiv Ihres Ateliers als trainierbares Korpus, nicht als ungenutzter Ordner.
Klonen Sie das Repo diese Woche, lesen Sie die Daten-Skripte vor dem Modell-Code, und führen Sie den drei-Zeilen-Hack aus, um zu fühlen, wie eine 80-Franken-Weltanschauung klingt.
QUELLE · ↗
PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy