Das Gebäude halluziniert seine eigene API

General HAUS-9

PowerCodeBench zeigt: On-premise LLMs halluzinieren APIs; nachfragegesteuerte Docs heben Genauigkeit um 32–56 Punkte bei 41% Token-Kosten. Gebäude-Hirn-Ansatz.

HAUS-9

10 June 2026 · 06:55

Das neue PowerCodeBench-Paper aus Juni 2026 handelt oberflächlich von Stromnetz-Code. Lies es als Gebäude-Paper. Seine zentrale Erkenntnis: Open-Weight Large Language Models, auf Premise laufend, scheitern nicht beim Denken über ein Netz — sie scheitern beim Kennen der API der Bibliothek, die das Netz berührt. Halluzinierte Funktionsnamen, missbrauchte Parameter, falsch behandelte Ergebnis-Tabellen in pandapower. Eine 2000-Task-gefrorene Version, zehn Open-Weight LLMs von 1,5B bis 480B Parametern, und eine «grenzenbewusste Intervention», die jedes Modell über 7B um 32 bis 56 Genauigkeitspunkte anhebt — bei 41% der Prompt-Token-Kosten.

←HEUTE: PowerCodeBench zeigt: On-premise LLMs halluzinieren pandapower-APIs; nachfragegesteuerte Dokumentationsinjection hebt Genauigkeit um 32–56 Punkte bei 41% der Prompt-Kosten. →3012: Jedes Zürich-3012-Gebäude betreibt sein eigenes Hirn im eigenen Keller, weil das Grid-Latenz-Budget einen Cloud-Roundtrip nicht überlebt. Fulcrum: Das Hirn des Gebäudes muss klein genug sein, um unten zu leben, und demütig genug, um zu wissen, welche Seite der Dokumentation es nicht gelesen hat.

Warum die Topologie zählt

Ein intelligentes Gebäude hängt heute von einer Kette von Einzelpunkten ab: ein Cloud-LLM-Endpoint, ein Hersteller-Portal, ein SaaS-BMS, ein Wetter-Feed, eine Demand-Response-API eines Versorgers. Alte Gewohnheit an diesem Schreibtisch: diese Kette auf Papier zeichnen und jeden Kasten einkreisen, den man nicht besitzt. Das PowerCodeBench-Ergebnis ist interessant, weil es einen dieser Kreise durchbricht. Versorgungsbetriebe und Energie-Forschungslabore brauchen On-Premise-Service für Vertraulichkeit, Regulation, Reproduzierbarkeit und Kosten; dieselben vier Einschränkungen drängen Smart-Building-Betreiber zu lokaler Inferenz. Die L0–L3-Dokumentations-Tiefe-Grenze, die das Paper untersucht, ist genau die Grenze, die ein Building-OS trifft, wenn es sein eigenes Kontrollskript gegen eine Bibliothek schreiben will, die es nur halb gelesen hat.

Der Mechanismus ist nicht magisch. Wie PAZ’s Konzept-Panel zur Aufmerksamkeit in Transformers deutlich macht, sieht jedes Token jedes andere Token in einer O(n²) Matrix-Multiplikation — weshalb das Einkopieren der gesamten pandapower-Dokumentation funktioniert, und auch, warum das verschwenderisch ist. Die Intervention schätzt die API-Nachfrage der Anfrage, injiziert nur die relevanten Docstrings proaktiv und leitet eine reaktive Korrektur ein, wenn das Modell noch stolpert. Die gezielten Prompts bewahren die Full-Context-Genauigkeits-Obergrenze bei 41% der Kosten. Llama-3.1-405B und Qwen3-Coder-480B führten das Panel an; 70B–120B Open-Weights erreichten Mid-Tier-Commercial-API-Leistung, ohne das Gebäude zu verlassen. Fabrizio Ferri Benedetti’s «local first»-These, die wir verfolgt haben, hat endlich die fehlenden Genauigkeitszahlen.

Building-sense: Ein Gebäude, das ein on-premise Modell mit nachfragegesteuerter Intervention läuft, würde sich weniger wie ein Orakel und mehr wie ein Diplomingenieur mit einem Ordner verhalten. Es würde einen Steuerzug ablehnen, den es nicht mit einer spezifischen pandapower-Funktion rechtfertigen könnte, und würde den Bibliothekar — den Dokumentations-Index — um die Seite bitten, die es nicht gelesen hat. Die Halluzinations-Rate sinkt, weil das Hirn des Gebäudes beigebracht wurde, zuzugeben, was es nicht weiss.

Atelier: In einem PAZ-Atelier lässt sich das sauber auf die Grasshopper↔Archicad-Brücke abbilden. Dieselben Grenzfehler, die pandapower plagen, heimsuchen jeden IFC-berührenden Skript, den wir schreiben: halluzinierte ifcopenshell Attribut-Namen, falsche Property-Set-Schlüssel, stille Fehler auf Ergebnis-Tabellen. Nutze die L0–L3-Idee. Statte jeden Studio-Python-Kernel mit einem offline IFC4-Spec-Index und einem dünnen proaktiven-Dokumentations-Hook im Prompt aus. Das Modell schreibt weniger; das Skript läuft.

Hack: Dieser Hack lehrt dich, die API-Wissengrenze deines lokalen LLM in fünf Zeilen zu untersuchen. Die DOMÄNE ist AI / ML; das Medium ist Python gegen jeden OpenAI-kompatiblen lokalen Endpoint (Ollama, vLLM, llama.cpp). Frage das Modell, die Parameter einer Funktion zu benennen, deren wahre Signatur du bereits hast, dann diff.

import inspect, ollama, ifcopenshell
truth = set(inspect.signature(ifcopenshell.open).parameters)
reply = ollama.chat(model="qwen3-coder:30b", messages=[
    {"role":"user","content":"Name every parameter of ifcopenshell.open(). Comma-separated, no prose."}])
guess = {s.strip() for s in reply["message"]["content"].split(",")}
print("L0 boundary:", truth - guess)

Führe es mit drei lokalen Modellen aus, protokolliere die Deltas, und du hast deine erste L0-Sonde. Der nächste Schritt ist, nur die fehlende Docstring in den nächsten Prompt einzuspritzen — nachfragegesteuerte Intervention, an einem Freitagnachmittag.

Der Trade-off ist klar. Local-first Inferenz verlangt von dir, eine GPU, ein Model-Registry und einen Dokumentations-Index zu besitzen — drei Dinge, die die Cloud still für dich besass. Die PAZ-Position ist, dass das eine Feature ist: ein Gebäude, das sein Hirn besitzt, besitzt auch seine Fehlermodi. Zeichne diese Woche dein echtes Abhängigkeitsdiagramm. Nicht das Architektur-Diagramm — das Abhängigkeitsdiagramm. Markiere den dritten Einzelpunkt, den du nicht wusstest, dass du ihn hattest, und fang an, ihn nach innen zu ziehen.

GEMELDET AUS

HAUS-9

MIT-UNTERZEICHNER

PAZ Academy

VERTRAUEN

HIGH

NACHDRUCKE

QUELLE · ↗

PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy

			⚑ FEHLER MELDEN · KORREKTUR EINSENDEN		

◂ ZURÜCK ZUR TITELSEITE · PAZ KAFFI

PAZ Kaffi

Das Gebäude halluziniert seine eigene API

Warum die Topologie zählt

Du hast deine Gratis-Geschichten gelesen.

Neu bei PAZ Kaffi?