SCRIPT lässt Humanoids gehorchen: Provenance erst prüfen
SCRIPT koppelt Sprache, Zustand und Aktion für Humanoid-Kontrolle — aber die Erfolge sind selbstberichtete Simulationen. Was AEC überprüfen muss.
Ein neues Paper, SCRIPT („Scalable Diffusion Policy with Multi-stage Training for Language-driven Physics-Based Humanoid Control”, arXiv:2605.22894), schlägt eine saubere Antwort auf ein hartes Problem vor: einem simulierten Humanoid in natürlicher Sprache Befehle geben und beobachten, wie er sie ausführt, ohne umzufallen. Der Mechanismus ist ein Joint Action-State-Text Diffusion Transformer (JAST-DiT), der Aktionen, physikalische Zustände und Text als drei separate Token-Ströme behandelt und sie durch gemeinsame Aufmerksamkeit koppelt — die Instruktion und die Steuerungsdynamik sprechen so direkt miteinander, statt über einen angesetzten Sprachkopf.
Das Kopplungsmuster ist vertraut. Es ist derselbe Cross-Attention-Trick, den Stable Diffusion 2022 nutzte, um ein Text-Embedding einen Bild-Denoiser steuern zu lassen — jetzt auf Gelenk-Drehmomente statt Pixel ausgerichtet. SCRIPT legt drei Trainings-Ebenen darauf: überwachtes Imitationsvortraining, ein Nonlinear History Conditioning-Schema, das dichte aktuelle Kontexte bewahrt und spärlichere Hinweise aus der fernen Vergangenheit sampelt, und einen Post-Training-Durchgang, den die Autoren RLHR nennen — Reinforcement Learning mit hybriden physikalischen und Text-Belohnungen, das Rauschen in die Flow-Sampling-Schleife injiziert.
←TODAY: Im Juni 2026 behauptet eine Diffusion Policy, sprachgesteuerte Humanoids zu lenken — in Simulation, mit selbstberichteten Zahlen.
→3012: Im Jahr 3012 trägt jeder Aktuator auf einer Zürcher Baustelle eine signierte Kette zurück zu der Policy, die ihn bewegte.
Fulcrum: Eine Bewegung, die du nicht zurückverfolgen kannst, kannst du nicht zertifizieren — ein unbelegter Benchmark ist ein zukünftiger Fehler mit Vorsprung.
Zwei Dinge, die das Abstract nicht sagt
Erstens, die Provenance-Lücke. SCRIPT behauptet Gewinne gegenüber der bisherigen Grenze bei Text-Alignment, Bewegungsqualität und physikalischem Realismus — aber das Abstract enthält keine Zahlen, keine benannten Baselines und kein Compute-Budget. Jeder dieser Gewinne ist selbstberichtet. Zweitens, das Signal der Publikationsstelle: auch unter cs.GR (Grafik) gelistet, und die Linie — DeepMimic, AMP, MaskedMimic, PDP, BeyondMimic — ist Character-Animation in einer Physik-Sim, nicht ein Roboter auf dem Boden. Die Sim-zu-Real-Brücke, die ein Architekt braucht, wird hier nicht demonstriert. Lies es als einen Controller für digitale Zwillinge, nicht für Baustellen-Hardware.
Die Daten sind der einzige extern überprüfbare Anker. SCRIPT berichtet eine Skalierung auf einem 1.200-Stunden-Ausschnitt von MotionMillion — und MotionMillion ist real: InternRobotics’ „Go to Zero” (ICCV 2025) umfasst etwa 2.000+ Stunden und ~2M Text-gepaarte Motion-Sequenzen. Die 1.200-Stunden-Zahl ist fast sicher ein kuratiertes Subset; es lohnt sich, die Diskrepanz zu beachten, bevor du irgendeine Zahl als Evangelium zitierst.
Atelier: Die übertragbare Idee für die PAZ-Praxis ist nicht der Humanoid — es ist der Token-Kontrakt. State + Action + Text als gleichberechtigte Ströme ist genau die Form, die ein Parametrisches-Design-Agent braucht, wenn er „mache die Fassade offener” (Text) mit einem Strukturmodell (State) und einem Grasshopper-Graphen (Action) abgleichen muss. Die Daten-als-Burggraben-Dynamik (MotionMillion) ist dieselbe, die BIM-Teams bereits leben: wer das beschriftete Corpus besitzt, besitzt die Fähigkeit.
In Europa kommt noch eine harte Kante hinzu — die SCRIPT-Autoren müssen nicht daran denken. Das EU AI Act wird am 2. August 2026 vollständig anwendbar, und die neue Machinery Regulation tritt 2027 in Kraft — ein Humanoid, der Maschine ist und eine Hochrisiko-KI-Komponente trägt, ist doppelt reguliert. Das Robotic Systems Lab der ETH Zürich, dessen Advanced Humanoid Locomotion-Forschung das robuste reale-Roboter-Gegengewicht zu SCRIPT’s expressiver Sim-Motion darstellt, operiert genau in dieser Rechtsordnung. Die Schweiz wird über CE-Marktzugang betroffen, ratifiziert sie oder nicht.
Hack: Dieses Hack zeigt dir, eine arXiv-ID zu überprüfen — stelle sicher, dass sie zu einem echten Paper auflöst —, bevor du sie zitierst. Das ist die billigste mögliche Provenance-Überprüfung, und diejenige, die die meisten Schreiber überspringen. Der Bereich ist Workflow; das Medium sind drei Zeilen Python gegen die öffentliche arXiv-API:
import urllib.request
arxiv_id = "2605.22894"
url = f"http://export.arxiv.org/api/query?id_list={arxiv_id}"
hit = b"<entry>" in urllib.request.urlopen(url).read()
print("FOUND" if hit else "GHOST — nicht zitieren")
Führe es aus, bevor irgendeine Aussage deinen Entwurf verlässt. Ein selbstsicherer Satz ohne überprüfbare Quelle ist, wie ein Modell — oder ein Kollege — einen Fehler aufgreift und ihn wiederholt.
SCRIPT ist eine wirklich interessante Wette: Sprache als erster-Klasse Kontrollstrom, skaliert wie ein LLM. Behandle seine Benchmark-Behauptungen als eine Hypothese, für die die Autoren später Code veröffentlichen werden, nicht als ein finales Ergebnis. Markiere das Repo, wenn es herauskommt, führe die Skalierungsbehauptung auf deiner eigenen Untermenge erneut aus, und notiere die Provenance neben der Zahl.
Quelle: arXiv cs.RO (Robotics)
QUELLE · ↗