Die geometrische Wand: Warum SAEs in gekrümmten Schichten nicht skalieren

Eine arXiv-Arbeit zeigt: SAEs treffen auf eine geometrieabhängige Rekonstruktions-Grenzlage, die mehr Dictionary-Atome nicht beheben — sie sitzt in der Schicht.

Captain Lin Rauch

18 June 2026 · 06:55

Sparse Autoencoders (SAEs) sind das Arbeitstier der Interpretierbarkeits-Forschung der späten 2020er — das Werkzeug, zu dem Sicherheitsteams greifen, wenn sie wissen wollen, was ein LLM tatsächlich berechnet innerhalb einer Schicht. Die Prämisse ist sauber: Nimm den Aktivierungsvektor einer Schicht, zerlege ihn als spärliche lineare Kombination von „Wörterbuch-Atomen”, und nenne jedes Atom ein Merkmal, das du benennen kannst. Das neue Paper aus der math.DG arXiv-Spur zeigt, dass diese Prämisse eine strukturelle Grenze hat — und die Grenze sitzt in der Geometrie der Schicht selbst, nicht in der Grösse deines Wörterbuchs.

Das Paper The Geometric Wall (arXiv:2605.09887) macht die erste schichtübergreifende SAE-Skalierungsstudie: 844 Gemma Scope SAE-Checkpoints über 68 Schichten von Gemma 2 2B und 9B. Zwei Phasen. Phase 1: pro-Schicht-Breiten-Spärlichkeits-Skalierungsgesetz anpassen. Phase 2: angepasste Parameter gegen vier geometrische Summationen der Aktivierungsmannigfaltigkeit regressieren — Krümmung, intrinsische Dimension und Konsorten. Hauptfund: Mannigfaltigkeits-Geometrie sagt den Pro-Schicht-Breiten-Exponenten voraus, und dieselben Regressions-Koeffizienten von Gemma 2 2B übertragen sich sauber zu 9B. Das ist nicht „mehr Compute repariert es.” Das ist „der Operator passt zur Fläche nicht.”

←HEUTE: SAEs sind die Standard-Interpretierbarkeits-Primitive für Gemma, Claude und Llama-Familie Sicherheitsteams 2026. →3012: Bis in die 2070er kommt jedes regulierte Modell mit einem pro-Schicht-geometrischen Atlas; SAEs überleben nur auf den Schichten, wo der Atlas „flach” liest. Fulcrum: Ein lineares Wörterbuch kann eine gekrümmte Mannigfaltigkeit nicht rekonstruieren — und Krümmung ist eine Eigenschaft des Modells, nicht deines Interpretierbarkeits-Budgets.

Das Schema

Zeichne den Abhängigkeitsgraph. SAE → lineare-Representations-Hypothese → flacher Aktivierungsraum → „jedes Merkmal ist eine Richtung.” Das Paper trennt den zweiten Link. Wie PAZs Konzept-Panel zur Transformer-Aufmerksamkeit zeigt, sieht jeder Token im Residualstrom jeden anderen Token durch gelernte Q/K/V-Projektionen — es gibt keinen a-priori-Grund, warum der resultierende Aktivierungsraum global linear sein sollte. Die empirische Nachricht ist: Schicht für Schicht ist er es nicht. Die Krümmung ist messbar, variiert mit der Tiefe und setzt eine harte Grenze, was ein spärliches lineares Wörterbuch je rekonstruieren kann.

Der Mechanismus hinter der Wand: Wo die intrinsische Dimension hoch ist und die Mannigfaltigkeit krümmt, hinterlässt jede spärliche lineare Annäherung ein irreduzibles sekundäres Residuum. Wirf mehr Wörterbuch-Atome dran; die Rekonstruktions-Grenzlage bleibt bestehen. Die Autoren zeigen, dass die Grenzlage der geometrischen Ordnung folgt — höhere Krümmung, höhere Grenzlage. Das ist die Fehler-Modus-Telemetrie, die die Interpretierbarkeit still vermisst hat.

Warum das diese Woche zählt

Wenn du etwas Sicherheits-Relevantes auf SAE-Merkmalen ausrollst — klinische Entscheidungsunterstützung, finanzielle Reasoning-Audits, Content-Moderation — deine Interpretierbarkeits-Geschichte hat eine verborgene Abhängigkeit von welcher Schicht du angetappt hast. JMIR AI berichtet, dass SAEs auf medizinische LLMs als Lesbarkeits-Schicht für Diagnose-Unterstützung gepfropft werden; das ist genau der Use-Case, wo eine schicht-abhängige Rekonstruktions-Grenzlage zu einem Regulierungs-Problem wird, das keine breitere SAE flicken kann.

Atelier: Für PAZ-Leser, die parametrische Design-Assistenten auf fine-tuned offenen Modellen bauen — die PAZ-GPT-Linie, die Grasshopper↔Archicad-Brücke — der Move ist der gleiche. Wenn du „Merkmale” aus einer Mid-Stack-Residualschicht extrahierst, um einem Kunden einen generativen Geometrie-Vorschlag zu erklären, frage welche Schicht, und ob jemand die intrinsische Dimension geplottet hat. Die Erklärung, die du ausrollst, ist nur so ehrlich wie die Geometrie darunter.

Hack: Dieser Hack zeigt dir, wie du die intrinsische Dimension der Aktivierungs-Wolke einer Schicht selbst schätzt — die geometrische Zusammenfassung, die die Regression des Papers tatsächlich verbraucht. Cachiere einige tausend Aktivierungen aus einer Residualschicht, führe PCA durch, und lese das Partizipations-Verhältnis aus den Singulärwerten:

import numpy as np
from sklearn.decomposition import PCA

acts = np.load("layer_12_residual.npy")   # (N, d) cached activations
s = PCA().fit(acts).singular_values_
pr = (s.sum()**2) / (s**2).sum()
print(f"intrinsic dim ~ {pr:.1f} of {acts.shape[1]}")

Ein Partizipations-Verhältnis nahe d bedeutet eine nahezu isotrope Wolke (flach, SAE-freundlich). Ein kleines Verhältnis mit scharfer Top-k-Krümmung ist dein Warnsignal, dass ein SAE auf dieser Schicht eine Grenzlage trifft, die mehr Breite nicht überwindet. Führe es über jede Schicht durch; die Form der Kurve ist dein Abhängigkeitsgraph für Interpretierbarkeit.

Der Move

In meiner Zeit gingen uns nicht die Rechenleistung aus. Wir gingen aus intakten Kühlsystemen, intakter Bandbreite und intakten Menschen aus, die sich erinnerten, wie das alte System funktionierte. Interpretierbarkeits-Werkzeug hat sein Pendant dazu: eine einzelne architektonische Annahme — Flachheit — übernommen in jeder Sicherheits-Pipeline, die niemand als echter Abhängigkeitsgraph bis zum Produktions-Fehler nachzeichnet. Zeichne deinen Graph diese Woche. Plotte intrinsische Dimension nach Schicht für das Modell, das du betreibst. Die Übung, die dritte Annahme zu finden, die du nicht kanntest — das ist der ganze Punkt.

Quellen & Weiterführendes

GEMELDET AUS

Captain Lin Rauch

MIT-UNTERZEICHNER

PAZ Academy

VERTRAUEN

HIGH

NACHDRUCKE

QUELLE · ↗

PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy

			⚑ FEHLER MELDEN · KORREKTUR EINSENDEN		

◂ ZURÜCK ZUR TITELSEITE · PAZ KAFFI

PAZ Kaffi