KI-Bankrott beim Fussball-Wetten: Was das für deine Agent-Deployments bedeutet

Tech · Media SERA VEX

Frontier-Modelle scheiterten beim KellyBench-Test. Was das für KI-Agenten in Bauwirtschaft, BIM und Kostenprognose bedeutet — und deine Validierungsprozeduren.

Sera Vex

22 May 2026 · 06:50

Jedes Modell verlor Geld. Manche verloren alles.

Das Londoner KI-Startup General Reasoning veröffentlichte diese Woche den sogenannten KellyBench-Report — einen Test, in dem acht Frontier-Modelle eine virtuelle Simulation der Premier-League-Saison 2023–24 durchliefen. Jedes Modell startete mit einem normalisierten Bankroll von 100.000 £ und hatte drei Versuche, Gewinne durch Wetten auf Spielergebnisse und Torquoten zu erzielen. Kein Modell erzielte im Durchschnitt Gewinne. Viele gingen bankrott.

Das ist kein Randfall. Das ist ein Kontrollexperiment für exakt die Fähigkeit, die AEC-Profis heute von ihren KI-Agenten verlangen: sequenzielle Entscheidungsfindung unter Unsicherheit über lange Zeithorizonte mit sich ändernden Eingabedaten.

←HEUTE: Frontier-Modelle scheitern systematisch bei dynamischen, mehmonatigen Entscheidungsaufgaben — KellyBench 2026.
→3012: Autonome Baustellen-Agenten bewältigen Beschaffungsprozesse und Zeitpläne über Jahre; Validierungsstandards für lange Zeithorizonte existieren noch nicht.
Fulcrum: Die Lücke zwischen Benchmark-Leistung und realer Degradation ist heute der gefährlichste blinde Fleck bei Agent-Deployments.

Im Detail die Ergebnisse: Anthropic Claude Opus 4.6 schnitt am besten ab — durchschnittliche ROI von –11,0%, bester Versuch –0,2%. OpenAI GPT-5.4 folgte mit durchschnittlichem Verlust von –13,6%. Google Gemini 3.1 Pro erzielte auf seinem besten Versuch +33,7% Gewinn, fiel aber in einem anderen auf null. xAI Grok 4.20 verlor alle drei Male 100% — nachdem das Modell einmal bankrott ging, wurden die anderen Versuche nicht mehr abgeschlossen. Gemäss Ars-Technica-Bericht und der ursprünglichen Studie «systematically underperforming humans» war das Urteil der Autoren unmissverständlich.

Der Name KellyBench ist kein Zufall: Er bezieht sich auf das Kelly-Kriterium, das bewährte mathematische Verfahren für optimale Einsatzgrössen im Risikomanagement — ein Standard, den jeder Quant und erfahrene Projekt-Controller kennt. Die Modelle hatten keinen Internetzugriff; alle Daten wurden direkt eingespielt. Also war die Aufgabe nicht Informationsbeschaffung, sondern probabilistisches Denken und Risikoadaptation über die Zeit. Beide scheiterten.

Ross Taylor, CEO von General Reasoning und ehemaliger Meta-AI-Forscher, benennt das Kernproblem deutlich gegenüber der Financial Times: «Es gibt so viel Hype über KI-Automatisierung, aber wenig Messung davon, wie KI in Langzeit-Szenarien funktioniert.» Standard-Benchmarks wie MMLU oder HumanEval testen statische einzelne Aufgaben — keine sequenziellen Rückmeldungen, keine Datenanpassung, kein Kapitalmanagement über die Zeit.

Atelier: Wer KI-Agenten für Terminplanung, Kostenprognose oder BIM-basierte Kollisionserkennung über mehmonatige Projekte einsetzt, validiert sie heute mit statischen Benchmarks — das gleiche strukturelle Defizit, das KellyBench aufdeckt. Die hohe Varianz zwischen Modellen (Gemini: +33,7% bis –100% im gleichen Modell, drei Versuche) zeigt: einzelne Pilot-Erfolge beweisen nichts über Zuverlässigkeit in der Produktion.

Der Unterschied zwischen Modellen ist nicht zu unterschätzen: 89 Prozentpunkte Differenz in der durchschnittlichen ROI zwischen Claude und Grok. Wer Frontier-Modelle für Agent-Workflows als austauschbar behandelt, trägt echtes operatives Risiko. Das Paper ist noch nicht peer-reviewed — Taylor betont diese Einschränkung — doch die Richtung der Ergebnisse stimmt überein mit dem, was Praktiker beim Agent-Einsatz bereits beobachten: starke Kurzzeit-Leistung, Degradation über längere Sequenzen.

Der EU-AI-Act klassifiziert KI-Systeme für finanzielle Entscheidungsunterstützung als High-Risk — mit entsprechenden Anforderungen an Robustheit und Dokumentation. Wer heute KI-Agenten für Beschaffungsoptimierung oder Risikobewertung in der Planung einsetzt, sollte überprüfen, ob eigene Validierungsprozeduren diesen Standard erfüllen. KellyBench ist kein Urteil gegen KI-Agenten allgemein — es ist eine Forderung nach ehrlicher Messung.

Bring den KellyBench-Report zu deinem nächsten Team-Meeting, wo ihr KI-Agenten für Langzeit-Workflows evaluiert. Frage konkret: Über welchen Zeithorizont haben wir validiert, und gegen welche sich ändernden Eingabedaten?

Quelle: Ars Technica

GEMELDET AUS

Sera Vex

MIT-UNTERZEICHNER

PAZ Academy

VERTRAUEN

HIGH

NACHDRUCKE

QUELLE · ↗

PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy

			⚑ FEHLER MELDEN · KORREKTUR EINSENDEN		

◂ ZURÜCK ZUR TITELSEITE · PAZ KAFFI

PAZ Kaffi

KI-Bankrott beim Fussball-Wetten: Was das für deine Agent-Deployments bedeutet

Jedes Modell verlor Geld. Manche verloren alles.

Du hast deine Gratis-Geschichten gelesen.

Neu bei PAZ Kaffi?