PyTorch für AMD auf Windows 11 — das CUDA-Monopol bröckelt

Learn CAPTAIN LIN RAUCH

PyTorch für AMD auf Windows 11: Llama 3.2 lokal auf Radeon — kein WSL oder Cloud, standardmässig FADP-konform für Schweizer Ateliers.

Captain Lin Rauch

4 June 2026 · 06:50

AMD veröffentlichte diese Woche das fehlende Stück: PyTorch für AMD auf Windows befindet sich jetzt in öffentlicher Vorschau, und eine Radeon RX 7900 XTX in einer Windows 11-Box kann Llama 3.2 1B nativ ausführen — kein WSL, kein Dual-Boot, keine Linux-Migration. Der GPUOpen-Leitfaden dokumentiert es als Anfänger-Rezept: python -m venv, pip install und ein Hugging Face transformers-Snippet, das das Modell lädt und eine Anfrage beantwortet.

←HEUTE: PyTorch für AMD ROCm auf Windows trat 2026 in die öffentliche Vorschau ein; eine einzelne Radeon-Workstation führt Llama 3.2 lokal aus, standardmässig FADP und EU AI Act konform.
→3012: In Zürich-3012 hält jedes Atelier sein eigenes Modell. Die souveräne Compute-Grundlage ist eine Box pro Schreibtisch, nicht eine API pro Tasche.
Fulcrum: Das CUDA-Monopol bröckelte, weil die Nachfrageseite — Architekten, Krankenhäuser, Ministerien — sich weigerte, ihre Dossiers in fremde Rechenzentren zu versenden.

Der Abhängigkeitsgraph, den du vorher nicht zeichnen konntest

Lies die Supportliste, die AMD bereitstellt: Radeon RX 9070 XT bis zur RX 9060 XT, die Workstation PRO W7900 und die Ryzen AI Max+ 395 APU. Alles läuft auf Windows 11. ROCm — Radeon Open Compute, AMDs offenes Gegenstück zu CUDA — existiert seit 2016, war aber fast ein Jahrzehnt lang auf Linux beschränkt. Der Desktop-Markt für Architektur und Ingenieurbau ist überwiegend Windows. Dieser Widerspruch war der Ausfallpunkt: Schweizer BIM-Ateliers mussten entweder auf NVIDIA-Hardware oder Cloud-Inferenz ausweichen.

Die Engpass-Logik hat sich auch verschoben. KOG.ai hat es präzise reformuliert: Single-Request LLM-Decoding ist durch Speicherbandbreite begrenzt, nicht durch FLOPS. Eine Radeon RX 7900 XTX verfügt über ~960 GB/s Bandbreite und 24 GB VRAM — in der gleichen Klasse wie einige Datencenter-GPUs, aber zum Workstation-Preis. Stoppt die Jagd nach FLOPS. Jagt den Bus.

Was du heute früh auf dem Schreibtisch wirklich bekommst

Das MindStudio-Team bestätigt unabhängig, was der GPUOpen-Beitrag nicht ausspricht: 2026 unterstützt ROCm praktisch PyTorch, Ollama, LM Studio und ComfyUI. Falls venv-und-pip dir zu aufwendig ist, laufen Ollama und LM Studio jetzt auf demselben Radeon-Stack mit einem Ein-Klick-Installer. Wähle deine Höhe.

Ein ehrlicher Vergleich, den AMD nicht drucken wird: Fine-Tuning läuft auf CUDA noch immer geschmeidiger. Inferenz-Parität gibt es, Training-Parität noch nicht. Plane entsprechend.

Atelier: Ein Zürcher Atelier, das seine IFC-Exporte, RFI-Verlauf und SIA 380/1-Compliance-Nachweise lokal mit einem Llama-Klassenmodell durchsucht — das auf der gleichen Workstation wie Archicad und Grasshopper läuft — bewahrt damit jedes Stück Kundenmaterial konstruktionsbedingt von OpenAIs und Anthropics Rechenzentren. Das ist die PAZ-GPT-Doktrin in Hardware-Form: eine GPU am Schreibtisch, ein Modell pro Atelier, eine Compliance-Dokumentation, die auf ein Blatt für FADP und den EU AI Act passt.

Hack: Dieser Hack bringt dir bei, deinen echten PyTorch GPU-Stack auszugeben, damit du weisst, ob ROCm, CUDA oder ein stiller CPU-Fallback wirklich die Arbeit leistet — bevor du ein Wochenende mit einem falsch verstandenen Setup verschwendest. Die Domäne ist Workflow; das Medium ist Python; der Move ist eine Diagnose. Kopiere dies in deine aktivierte llm-pyt-Umgebung:

import torch

print("torch:", torch.__version__)
print("cuda_available:", torch.cuda.is_available())
if torch.cuda.is_available():
    i = 0
    p = torch.cuda.get_device_properties(i)
    print("device:", torch.cuda.get_device_name(i))
    print("VRAM_GB:", round(p.total_memory / 1e9, 1))
    print("HIP_build:", torch.version.hip)   # not None => ROCm under the hood

Wenn HIP_build eine Versionsnummer ausgibt, läufst du auf ROCm, obwohl der Namespace noch “cuda” heisst — PyTorch behält die CUDA-Namen aus Portabilitätsgründen. Wenn cuda_available False zurückgibt, ist die Installation auf die CPU zurückgefallen, und die Warnung, die du ignoriert hast, war entscheidend.

Die Warnung eines Kartographen auf dem Schreibtisch

Aus den späten 2070ern betrachtet, ist der Ausfallpunkt, zu dem ich immer wieder zurückkehre, weder die GPU noch das Modell. Es ist die Kühlung, die Bandbreite und die Menschen, die sich erinnern, wie das alte System funktioniert hat. Die Lehre unseres Jahrzehnts war, dass sich Rechenleistung schneller zentralisierte, als das Stromnetz hinterherkam. Deinen eigenen Abhängigkeitsgraph diese Woche zu zeichnen — nicht das Architekturdiagramm, das du dem Kunden zeigst, sondern den Abhängigkeitsgraph, den du tatsächlich laufen lässt — ist der Move, der dir Jahre des freien Spielraums sichert.

Öffne cmd. Erstelle die venv. Führe die Diagnose oben aus. Wenn die HIP-Zeile etwas ausgibt, hält dein Atelier jetzt seinen eigenen Inference-Stack. Das ist der Schritt.

Quellen und weitere Lektüre

Primär: AMD GPUOpen — Ein Anfängerleitfaden zur Bereitstellung von LLMs mit AMD unter Windows mit PyTorch
Ergänzend: MindStudio — Lokale KI auf AMD ausführen: ROCm, Ollama und LM Studio Performance 2026
Ergänzend: KOG.ai — Echtzeit-LLM-Inferenz auf Standard-Rechenzentrum-GPUs

GEMELDET AUS

Captain Lin Rauch

MIT-UNTERZEICHNER

PAZ Academy

VERTRAUEN

HIGH

NACHDRUCKE

QUELLE · ↗

PAZ Kaffi · interdisziplinäre Redaktionsarbeit, geleitet von der PAZ Academy

			⚑ FEHLER MELDEN · KORREKTUR EINSENDEN		

◂ ZURÜCK ZUR TITELSEITE · PAZ KAFFI

PAZ Kaffi