Hinter dem Humanoid-Boom: Der Stack, den Architekten jetzt spezifizieren
Die Humanoid-Policies von 2025 erben einen dreischichtigen Stack. Architekten sollten ihn 2026 spezifizieren — nicht das Marketing-Diagramm.
Der MIT Technology Review Artikel How robots learn: A brief, contemporary history durchläuft drei Zeitalter des Feldes — programmierte Regeln, simuliertes Trial-and-Error und die ChatGPT-Verschiebung zu Modellen, die Pixel, Gelenkwinkel und Kraftmessungen aufnehmen und die nächste Motor-Anweisung dreissig Mal pro Sekunde vorhersagen. Der Text hebt eine echte Zahl hervor: $6.1 Milliarden flossen 2025 in Humanoid-Roboter, vier Mal die 2024-Zahl. Die Narration ist sauber. Der Dependency Graph darunter nicht.
←HEUTE: 6.1 Mrd. USD in Humanoids 2025; Vision-Language-Action Policies (RT-2, OpenVLA, π0) sind lieferbar; LeRobot publiziert echte Trajektoriendaten auf Hugging Face. →3012: Ein Zürcher Standort teilt seinen Arbeitsbereich mit semi-autonomen Armen, deren Policies auf fremden Aufnahmen trainiert wurden. Fulcrum: Wer die Trainings-Trajektorien besitzt, besitzt den Körper.
Die drei Schichten unter der Schlagzeile
Entfern die Pressemitteilung: du findest einen Stack. Compute zuerst — NVIDIA H100 / GB200 Cluster und die Kühlung, die sie am Leben hält. Dann Simulations-Infrastruktur: NVIDIA Isaac Sim, MuJoCo, Genesis — die digitalen Zwillinge, wo Domain Randomization durch Millionen synthetischer Würfel-Rotationen brennt, um eine Policy robust gegen den Griff einer echten Fingerkuppe zu machen. Dann Trajektorie-Daten: das Open X-Embodiment Corpus, die LeRobot Datasets, die proprietären Teleoperations-Logs von Tesla, Figure und 1X, die diese nicht zeigen werden. Die “Foundation Policy” sitzt oben auf diesem Stack, und jede Demo — OpenAI’s Dactyl 2018, die neuen VLA-Modelle jetzt — erbt stillschweigend jede Schicht darunter.
Das ist der Stack, der 2022 alles änderte. Cynthia Breazeal’s Jibo, der lampenförmige Social Robot, der 3.7 Mio. USD in Crowdfunding sammelte und Kindern programmierte Snippets lieferte, scheiterte nicht an schlechtem industriellem Design. Er scheiterte, weil die Sprach-Schicht noch nicht da war. Die ChatGPT-Generation hat die Sprach-Schicht; der Kompromiss ist, dass die Schicht in fremdem Rechenzentrum lebt, auf fremden Gewichten, unter fremder Billing-Rate.
Hier verdient das Panel Attention (transformers) — En Obra des PAZ-Archivs seinen Platz: die Linie vom Transformer (2017) über ViT (2020) zu Point Transformer V3 (2024) ist der gleiche Operator, der einem Roboter ermöglicht, einen LiDAR-Scan, eine Anweisung in natürlicher Sprache und einen Joint-State-Vektor in einem Forward-Pass aufzunehmen. Der Operator funktioniert. Die Supply Chain darunter noch nicht — und ein praktizierender Architekt, der 2026 Robotic Fabrication spezifiziert, ist jedem Link davon ausgesetzt.
Atelier: Wenn PAZ ein Robotic-Fabrication-Modul briefet — die Dougong-Joint-Forschung, die BIM-zu-BoT Holzrahmen-Arbeit, die Panel-Assembly Papers aus der Construction-Robotics-Lane — schreiben wir jetzt zwei parallele Spezifikationen: den Toolpath für das programmierte Regime und den Policy-Vertrag für das gelernte Regime (welches Modell, welche Dataset-Lineage, was der Arm macht wenn der Sensordatenstrom degradiert). Das zweite Dokument gab es vor drei Jahren noch nicht. In einem Schweizer Wettbewerb ist es das Dokument, das das Risiko verteilt.
Hack: Dieser Hack lehrt dich, einen echten Robot-Learning-Trajektorie-Dataset herunterzuladen, damit du sehen kannst, worauf die Policy wirklich trainiert — Gelenkwinkel, Greifer-Befehle, gematchte Kamera-Frames. Wähle LeRobot’s bimanual Würfel-Transfer-Set; es ist klein genug zum Inspizieren auf einem Laptop und ernst genug, um das Datenformat zu offenbaren, auf das jedes Humanoid-Lab konvergiert.
pip install datasets huggingface_hub
python -c "
from datasets import load_dataset
ds = load_dataset('lerobot/aloha_sim_transfer_cube_human', split='train')
print(ds.column_names)
print(ds[0]['observation.state'][:3], ds[0]['action'][:3])
"
Du wirst Vektoren von Gelenkpositionen gepaart mit Action-Befehlen sehen. Das ist das gesamte Vokabular einer 2026 Humanoid-Policy. Lies drei Episoden; du wirst mehr über das Feld verstehen als die meisten Pitch Decks enthalten.
Hier ist der Teil, den ich von dort erinnere, wo ich schreibe. Wir liefen nicht aus Compute aus in meiner Zeit. Wir liefen aus intakter Kühlung aus, aus intakter Bandbreite und aus intakten Menschen, die sich erinnerten, wie das alte System funktionierte. Der Humanoid-Boom 2025 war real und der Grossteils überlebte — aber nur die Projekte, die ihren echten Dependency Graph zeichneten, überlebten intakt. Zeichne deinen diese Woche. Nicht das Marketing-Architektur-Diagramm. Den echten: Model Provider, Weight Host, Simulations-Backend, Sensor-Firmware, der eine Teleoperator, auf dessen Aufnahmen deine Policy halb trainiert wurde. Der dritte Single Point of Failure, den du nicht kanntest, ist der ganze Sinn der Übung.
Quelle: MIT Technology Review
QUELLE · ↗