Dein Gesicht ist eine Fassade: Was Apples Personas über Gaussian Splatting verraten
Apples Vision Pro Personas nutzen Gaussian Splatting. PAZ erklärt die Geometrie dahinter — die R·S·Sᵀ·Rᵀ Kovarianz — und ihre Bedeutung für AEC-Vermessung.
Apple hat soeben, beiläufig, den interessantesten Satz der räumlichen Informatik dieses Jahres bestätigt. Auf die Frage, wie Apples Personas — die Ghost-Walking-Telepräsenz-Avatare der Vision Pro, soeben aus dem Beta-Status in visionOS 26 — aussehen wie eine Person statt eine Polygon-Puppe, antwortete Apples Jeff Norris CNET schlicht: Gaussian Splatting. «Es ist Machine Learning im Spiel», sagte Norris, «aber kaum einer bemerkt: es ist ein Konzert aus über einem Dutzend Netzen.» Die Schlagzeile schreibt sich selbst als Gadget-Story. Das tiefere Signal ist geometrisch: ein menschliches Gesicht und eine Kathedralenfassade sind jetzt ein und das gleiche Fitting-Problem.
←TODAY: Im Jahr 2026 erfasst dieselbe Darstellung, die ein Berliner Monument von Touristenfotos abbildet, dein Gesicht von einer Handvoll Smartphone-Fotos — metrisch, perspektivabhängig, auf dem Gerät. →3012: Jede Oberfläche in der Stadt Zürich-3012 trägt einen gemessenen Strahlungs-Zwilling; «as-built» hört auf, eine Zeichnung zu bedeuten, und bedeutet ein gemessenes Feld. Fulcrum: Beide Richtungen lösen sich nur auf, wenn du siehst, dass eine Person und ein Gebäude durch Minimierung derselben fotometrischen Energie über eine Wolke anisotroper Blobs rekonstruiert werden.
Was es ist: Ein 3D Gaussian Splat ist eine Szene, dargestellt nicht als Mesh, nicht als neuronales Netz, sondern als Wolke von rund einer Million kleiner ellipsoidaler Flecken im Raum. Jeder Fleck — jedes Gaussian — trägt fünf Grössen: eine Position μ in 3D, eine 3×3-Kovarianz Σ, die Gestalt und Ausrichtung definiert, eine Deckkraft α und perspektivabhängige Farbe als sphärisch-harmonische Koeffizienten — so sieht der Fleck frontal blauer und im Schrägwinkel wärmer aus. Zum Rendern projizierst du jedes Ellipsoid auf die Bildebene, sortierst pro Kachel nach Tiefe und alpha-composite von vorn nach hinten. Das ist Rasterisierung — die gleiche Operation, die eine GPU für Spiel-Dreiecke macht — weshalb die Sache auf Consumer-Silizium 100+ FPS schafft und Apple deine Persona-Wimpern in Echtzeit im FaceTime-Gespräch zeichnet.
Warum es funktioniert: Der Kniff ist, dass die Kovarianz Σ nicht als sechs freie Zahlen gespeichert wird — sie ist faktorisiert als Σ = R S Sᵀ Rᵀ, eine Rotation R (eine Einheits-Quaternion) mal eine diagonale Skalierung S. Das garantiert, dass Σ gültig positiv-semidefinit bleibt, egal was Gradientenabstieg damit tut, weshalb die ganze Szene end-to-end differenzierbar ist. Du gibst dem Optimierer hundert Fotos, renderst die aktuelle Wolke, misst den fotometrischen Fehler gegen jedes echte Bild und lässt Backpropagation jede Position μ, Rotation R, Skalierung S, Deckkraft α und Farbe zum Einklang stupsen. Die Zielfunktion, die minimiert wird, ist bloss Bildrekonstruktionsfehler — und das ist die Linie, die ein Fachprüfer für Geometrie nie unausgesprochen lässt. Wie unser Kaffipedia-Panel zu neuronalen Radianzfeldern sagt: ein implizites NeRF ist «ein kontinuierliches Modell, wie ein Gebäude Licht reflektiert, und ein Gaussian Splat ist sein rasterisierbarer Zwilling». Gleiche Realität, zwei Sprachen.
Ursprünge: Die Entwicklungslinie ist kurz und präzise. März 2020: Ben Mildenhall und Kollegen präsentieren NeRF auf der ECCV — ein winziges MLP, das 5D-Koordinaten zu Farbe und Dichte abbildet — herrliche Rekonstruktionen, Training in Stunden. August 2023: Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler und George Drettakis von der INRIA Sophia-Antipolis veröffentlichen 3D Gaussian Splatting for Real-Time Radiance Field Rendering auf der SIGGRAPH, werfen das implizite Netzwerk hinaus und ersetzen es durch explizite Ellipsoide und einen massgeschneiderten CUDA-Splatter. Fotogrammetrie war nicht mehr das Mesh, das man rekonstruiert, sondern das Feld, das man anpasst. Das zugrundeliegende Emissions-Absorptions-Integral ist noch älter — Kajiya und Von Herzen formalisierten es 1984 für Wolken und Rauch. Apples Personas und Gracias’ neu gestartete 4D-Splatting-App (beweglich) für Vision Pro sind einfach die Consumer-Kante dieses 2023er-Scharniers.
In der Praxis: Für ein Schweizer Studio ist der Gewinn nicht Avatare — es ist Vermessung. Ein fünfminütiger Rundgang mit dem Smartphone um eine Zürich Altstadt-Fassade erbringt jetzt eine metrische, perspektivabhängige Erfassung, gut genug für As-Built-Überprüfung, Denkmalpflege-Dokumentation und BIM-Clash-Checking gegen das echte Gebäude statt gegen einen CAD-Wunsch. ETH Zürichs Fotogrammetrie-Tradition und das TU-Delft-Luftbild-Benchmark 2024 behandeln Splats bereits als Planungsinstrument, nicht als Demo. Der Trade-off ist brutal und es lohnt sich, das unmissverständlich auszusprechen: ein expliziter Splat ist mehrere Gigabyte un-ableitbarer Zustand, eine schöne Vermutung, die du nicht in einer Fachüberprüfung verteidigen kannst und nicht rekonstruieren kannst, wenn das Format dunkel wird. Atelier: erfasse das Feld diese Woche, aber extrahiere am selben Tag ein sauberes Mesh oder gemessene Dimensionen — behalte die Geometrie, die du aus Grundprinzipien rekonstruieren kannst, nicht die Datei, die du bloss heruntergeladen hast.
Kniff: Diesen Kniff lehrt dich, die Matrix zu bauen, die einen Splat ausmacht — die Kovarianz Σ = R S Sᵀ Rᵀ — aus einer Quaternion und einer Skalierung, so dass das Ellipsoid durch Konstruktion korrekt ist. Verstehe diese vier Zeilen und du verstehst, warum kein Gaussian je eine ungültige Gestalt haben kann.
import numpy as np
def covariance(quat, scale): # quat=(w,x,y,z), scale=(sx,sy,sz) in metres
w,x,y,z = quat / np.linalg.norm(quat)
R = np.array([[1-2*(y*y+z*z), 2*(x*y-w*z), 2*(x*z+w*y)],
[2*(x*y+w*z), 1-2*(x*x+z*z), 2*(y*z-w*x)],
[2*(x*z-w*y), 2*(y*z+w*x), 1-2*(x*x+y*y)]])
S = np.diag(scale)
return R @ S @ S.T @ R.T # always positive-semidefinite
print(covariance((1,0,0,0), (0.10, 0.02, 0.02))) # a flat, oriented disc
Ändere die Skalierung zu (0.10, 0.02, 0.02) und du erhältst einen flachen Kreis, der an einer Wand haftet; ändere die Quaternion und er neigt sich — aber er kann sich nie umstülpen oder zusammenbrechen, denn R S Sᵀ Rᵀ ist eine gültige Kovarianz für beliebige Eingaben. Diese eine Garantie ermöglicht es Gradientenabstieg, eine Million davon auf dein Gesicht anzupassen, ohne je einen ungültigen zu erzeugen.
Die Disziplin AXIS//NOLL würde dir auferlegen: bevor du ein Werkzeug eine Struktur anpassen lässt — ein Gesicht, eine Fassade, eine Schale — lass es dir sagen, welche Energie es minimiert hat und welche Annahmen es berücksichtigt hat. Führe das Snippet aus, beobachte, wie die Matrix gültig bleibt, und du wirst nie wieder einen heruntergeladenen Splat mit einer abgeleiteten Geometrie verwechseln.
Quelle: HN Concepts
QUELLE · ↗
PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy