Warum OpenAI eigene Chips baut: Inferenz frisst die Marge
OpenAI zählt zu den weltweit größten GPU-Käufern. Jede ChatGPT-Anfrage löst Inferenz aus — den Forward-Pass, der Tokens in Antworten verwandelt. Mit wachsenden GPT-4- und GPT-5-Familien ist Inferenz zur größten Einzelposition im OpenAI-Betriebsbudget geworden und skaliert linear mit täglichen aktiven Nutzern.
Bisher lief nahezu die gesamte Last auf Nvidia H100, H200 und Blackwell. Diese Chips sind General-Purpose-Arbeitstiere — exzellent für Training, Grafik und Simulation, aber nicht laserfokussiert auf homogenes LLM-Serving. Bei strukturell ähnlichen Anfragen sitzt viel Silizium idle. Nvidia-GPUs sind ein Schweizer Taschenmesser; Jalapeño ist ein Skalpell.
Größere Modelle, größere Rechnungen: Inferenz dominiert Opex und skaliert mit Nutzerwachstum — ohne Silizium-Effizienz gibt es keinen Skaleneffekt.
GPU-Architektur-Mismatch: General-Beschleuniger opfern Effizienz, wenn die Aufgabe reine Token-Generierung in großem Maßstab ist.
Einzelanbieter-Hebel: Lieferzeiten und Preismacht lagen fast vollständig bei Nvidia — wenig Verhandlungsspielraum für den größten Käufer.
Peers zogen vor: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100 und Meta MTIA sind bereits in Produktion.
Später Einstieg, schnelle Ausführung: OpenAI startete zuletzt unter Hyperscalern, beansprucht aber den schnellsten High-Performance-ASIC-Tape-out — neun Monate von Blankoslate bis Silizium.
| Unternehmen | Custom-Chip | Hauptnutzung |
|---|---|---|
| TPU | Training + Inferenz | |
| Amazon | Trainium / Inferentia | Training + Inferenz |
| Microsoft | Maia 100 | Inferenz |
| Meta | MTIA | Inferenz |
| OpenAI | Jalapeño (2026) | Nur Inferenz |
Reuters berichtete erstmals 2023 über OpenAIs Chip-Pläne. Im Oktober 2025 kündigten OpenAI und Broadcom die Partnerschaft an. Bloomberg schätzt OpenAIs Broadcom-Chip-Ausgaben auf zig Milliarden Dollar — zusätzlich zu den massiven GPU-Budgets.
Benchmark-Behauptungen und die Nvidia-Koexistenz-Rechnung
Die Zahlen stammen von Broadcom-CEO Hock Tan und OpenAIs Launch-Material. Sie reflektieren frühe interne Tests. Ein vollständiger Technikbericht liegt Monate entfernt; unabhängige Benchmarks existieren noch nicht. Bis Produktionstelemetrie vorliegt, als anbietergemeldete Richtwerte behandeln.
| Kennzahl | Jalapeño (frühe Tests) | Referenz |
|---|---|---|
| Inferenz-Kosteneinsparung | ~50 % | vs. Mainstream-KI-GPUs (Hock Tan, Bloomberg) |
| Leistung pro Watt | Deutlich über SOTA | OpenAI offizielle Aussage |
| Absoluter Durchsatz | Auf Blackwell-, Google-TPU-Niveau | Hock Tan, Reuters |
| Thermisches Profil | Besser als erwartet | OpenAI interne Tests |
| Entwicklungszyklus | 9 Monate Design bis Tape-out | Schnellster Zyklus in Advanced-ASIC-Klasse (behauptet) |
| Prozessknoten | TSMC 3nm | Gleiche Generation wie Apple M4, Blackwell |
„Bisher hat Jalapeño etwa 50 % Kosteneinsparung gegenüber typischen KI-GPUs gezeigt." — Hock Tan, Broadcom-CEO, Bloomberg-Interview
Kann Jalapeño Nvidia ersetzen? Kurzfristig nein. Drei Gründe: (1) Nur Inferenz — Training und Fine-Tuning laufen weiter auf Nvidia; im Februar 2026 investierte Nvidia 30 Mrd. $ direkt in OpenAI. (2) CUDA-Moat — ein Jahrzehnt Software, Millionen Entwickler und optimierte Libraries sind schwerer zu verdrängen als Hardware. (3) ASIC-Inflexibilität — weicht LLM-Architektur über Transformer-Muster hinaus, ist Retargeting teuer und langsam.
Das eigentliche Spiel ist Diversifikation, kein Bruch. Selbst 20–30 % Inferenzlast auf Jalapeño spart real und stärkt Verhandlungsmacht bei verbleibenden GPU-Käufen. Google, Amazon und Microsoft folgen demselben Playbook. Quilter-Cheviot-Tech-Chef Ben Barringer: „Niemand will von Nvidia abhängig sein."
Broadcom gewinnt in jedem Fall: Das Unternehmen designt Custom-ASICs für Google (TPU v5/v6), Meta (MTIA) und jetzt OpenAI (Jalapeño) — effektiv die Foundry für die Foundry-losen. Broadcom-Aktien stiegen in den ersten fünf Monaten 2026 ~18 % und seit Ende 2022 fast 7×.
Im Inneren von Jalapeño: Blankoslate-ASIC für LLM-Serving
ASIC (Application-Specific Integrated Circuit) bedeutet eine Aufgabe: LLM-Inferenz. Kein Gaming, keine General-Compute, keine Training-Kernels. Dieser enge Scope ist die gesamte Effizienzthese — wenn Silizium genau das tut, was der Serving-Stack braucht, steigt die Auslastung Richtung theoretische Spitzen.
Richard Ho, OpenAIs Hardware-Leiter, sagte, Jalapeño sei „von Grund auf für LLM-Inferenz entworfen" und integriere tiefes Wissen über „Kernel-Ausführung, Speicherbewegung, Netzwerk und Serving-Muster für Frontier-Modelle". Frühe Tests zeigen kritische Workloads „nahe an den theoretischen Hardware-Grenzen".
Blankoslate-Design: Jede Architekturentscheidung zielt auf Transformer-Inferenz — nicht retrofitted von einem GPU-Shader-Modell.
Minimierte Datenbewegung: LLM-Inferenz bottlenecket oft auf Speicherbandbreite; Jalapeño reduziert nutzlose Shuffles zwischen Memory und Compute.
Ausgewogenes Compute / Memory / Netzwerk: Abgestimmt auf reale Serving-Lasten, damit FLOPs nicht auf HBM warten.
Broadcom Tomahawk-Netzwerk: Cluster-Skala Inter-Node-Bandbreite für Multi-Chip-Inferenz der größten Modelle.
Celestica-Integration: EMS-Partner übernimmt Board-Integration, Rack-Systeme und Massenproduktion der Server.
Engineering-Samples laufen bereits mit Ziel-Frequenz und -Leistung in OpenAI-Laboren — inklusive GPT-5.3-Codex-Spark, einem Flaggschiff-Coding-Inferenzmodell. Mitgründer Greg Brockman bestätigte den neunmonatigen Tape-out und dass OpenAIs eigene KI-Modelle Teile des Design- und Optimierungsworkflows beschleunigten.
| Rolle | Partner | Verantwortung |
|---|---|---|
| Chip-Architektur | OpenAI | LLM-Inferenz-Optimierung, Full-Stack-Architektur |
| Silizium & Netzwerk | Broadcom | Chip-Implementierung, Tomahawk-Fabric, Produktionsunterstützung |
| Foundry | TSMC | 3nm-Wafer-Fertigung |
| Systemintegration | Celestica | Mainboards, Racks, Server-Integration in großem Maßstab |
| Erstes Deployment | Microsoft Azure | Rechenzentrum-Rollout ab Ende 2026 |
OpenAI bezeichnet Jalapeño als ersten „Intelligence Processor" — kein modifizierter General-Purpose-Beschleuniger, sondern ein Clean-Slate-Design für moderne LLM-Inferenz, informiert durch die Workloads, die OpenAI täglich in Produktion betreibt. Chips und Server werden ausschließlich von OpenAI genutzt; Celestica baut die Systeme in Kanada.
Sechs-Schritte-Runbook: Stack anpassen, wenn Inferenzökonomie kippt
Halten sich 50 % Inferenz-Einsparungen in Produktion, verschieben sich API-Preise, Modell-Routing und Cloud-vs.-Edge-Splits. Diese sechs Schritte halten die Architektur flexibel durch das Custom-Silizium-Rennen — inklusive DSGVO-relevanter Cloud-Datenprüfung.
Auf vollständigen Technikbericht warten: Nicht auf Launch-Day-Vendor-Benchmarks kapazitätsplanen. OpenAI versprach detaillierte Zahlen in den kommenden Monaten.
Inferenzkosten in Architektur-Reviews verankern: Modell-Routing, Prompt-Caching und API-Anbieterwahl sollten 30–50 % potenzielle Kostenerleichterung auf OpenAI-Serving-Workloads annehmen.
Training von Inferenz-Budgets trennen: Jalapeño deckt nur Inferenz. Fine-Tuning und Pre-Training bleiben auf Nvidia-GPU-Stacks — Beschaffungspläne nicht vermischen.
Lokale Agent-Hosts stabilisieren: Günstigere Cloud-Inferenz eliminiert nicht dedizierte Edge-Dev-Maschinen. Codex-Debugging, Xcode-Builds und 7×24-Gateways brauchen Apple Silicon.
Multi-Provider-Fallbacks designen: OpenAI sagt, der Chip sei „für LLMs branchenweit gebaut" — Hinweis auf externe Verfügbarkeit. Kritische Pfade jetzt über Anbieter routen.
Meilensteine an SLAs koppeln: Azure-Deploy Ende 2026, 2027 >1,3 GW, 2028 Next-Gen-Silizium, 2029 10-GW-Ziel — Budgets an jedem Gate prüfen. DSGVO: AVV und Datenfluss-Dokumentation bei Cloud-APIs mit personenbezogenen Prompts aktualisieren. Siehe Hilfezentrum.
Deployment-Roadmap und Meilenstein-Zeitplan
| Phase | Zeitpunkt | Meilenstein |
|---|---|---|
| Kurzfristig | Ende 2026 | Erste kommerzielle Azure- und Partner-Deployments; ChatGPT, Codex, API-Inferenz priorisiert |
| Mittelfristig | 2027 | Massenproduktion; Deployment über 1,3 GW; mögliche externe Verfügbarkeit für andere KI-Firmen |
| Langfristig | Bis 2029 | Custom-Silizium unterstützt 10 GW (~10 Kernkraftwerke Compute); Next-Gen-Chip 2028, danach jährliche Iterationen |
Vollständige Timeline: Okt. 2025 — OpenAI und Broadcom kündigen Partnerschaft. Feb. 2026 — Nvidias 30-Mrd.-$-Direktinvestition in OpenAI. 24. Jun. 2026 — Jalapeño-Public-Launch. Ende 2026 — erste kommerzielle Deployments in Gigawatt-Skala mit Microsoft und Partnern. 2027 — >1,3 GW deployed. 2028 — zweite Chip-Generation. 2029 — 10-GW-Compute-Ziel auf Custom-Silizium.
Hock Tan sagte, Broadcom habe Microsoft verlangt, 40 % der Chips zu garantieren, um die erste Phase abzusichern. Tan erwartet Gigawatt-Skala-Rechenzentren mit Microsoft und anderen Partnern ab 2026 und glaubt, die eigenen Deployment-Prognosen übertreffen zu können.
~50 % Inferenz-Kosteneinsparung: Frühe Broadcom-Labordaten via Bloomberg/Reuters; Produktionsvalidierung ausstehend.
9-Monats-Tape-out: Schnellster Advanced-ASIC-Zyklus (behauptet); KI-assistiertes Design plus Hardware-Software-Co-Design.
10 GW bis 2029: Mehrgenerationen-Roadmap bereits in der OpenAI–Broadcom-Gemeinschaftsmeldung kartiert.
OpenAIs Blog formulierte die Verschiebung klar: Das Unternehmen „entwickelt nicht nur Frontier-Modelle oder Produkte darauf — es designt die Infrastruktur darunter: Chip-Architektur, Kernels, Speichersysteme, Netzwerk, Scheduling, Deployment-Systeme und Produkterlebnis." Wettbewerb ist nicht mehr nur Modellqualität — es geht um Full-Stack-Effizienz.
Branchenauswirkungen, Halbleiter-Ökosystem und DSGVO bei Cloud-Daten
Halbleiter-Gewinner: Broadcom (Custom-ASIC-Design), TSMC (3nm-Foundry) und HBM-Lieferanten SK Hynix und Samsung. Druck auf Nvidia (Inferenz-Anteilsverlust) und AMD (schwächere Position in der Inferenz-ASIC-Welle). Tan räumte ein, dass Custom-KI-Chip-Margen wegen HBM-Nachfrage niedriger sind als bei Netzwerk-Switches.
Schlüsselpersonen: Greg Brockman (Mitgründer, öffentliche Ankündigung), Richard Ho (Hardware-Leiter), Hock Tan (Broadcom-CEO, Kosten- und Leistungsbehauptungen), Sam Altman (CEO, Compute-als-Lebensader-Strategie).
| Akteur | Position | Jalapeño-Impact |
|---|---|---|
| Nvidia | Training + Inferenz-Dominanz | Inferenz-Anteil unter Druck; Vera-Rubin und große Deployment-Deals als Gegenbewegung |
| AMD | GPU-Alternative | Schwächer in Inferenz-ASIC-Welle; weniger Custom-Design-Mandate |
| Microsoft | Azure + OpenAI-Partner | Erstes Deployment; 40-%-Chip-Garantie (berichtet); Maia 100 parallel |
| EU-Entwickler | API-Nutzer mit DSGVO-Pflichten | Günstigere Inferenz ändert nichts an AVV, Datenstandort und Prompt-Inhalten |
Hinweis: Die „50-%-Zahl" bleibt frühe Broadcom-Labordaten Stand 2026-06-25. Gegen OpenAIs vollständigen Technikbericht, Azure-Produktionstelemetrie und unabhängige Benchmarks validieren, bevor Finanzmodelle revidiert werden.
DSGVO-Relevanz: Jalapeño verarbeitet Inferenz in OpenAI-/Azure-Rechenzentren — oft außerhalb der EU. Personenbezogene Daten in ChatGPT- oder API-Prompts unterliegen weiterhin Art. 28 DSGVO (Auftragsverarbeitung), Art. 44 ff. (Drittlandtransfer) und erfordern dokumentierte Rechtsgrundlagen, AVV mit OpenAI/Microsoft und ggf. Standardvertragsklauseln. Günstigere Tokens senken nicht die Compliance-Pflicht. Für sensible Workloads: EU-Hosting für lokale Agenten und Build-Pipelines prüfen.
Günstigere Cloud-Inferenz repariert nicht die Edge. Lokale Macs mit Codex-Agenten stoßen weiterhin an Speicherdecken, Sleep-Zyklen und Multi-Projekt-Queues. Für 7×24-Gateways, Xcode-CI und iOS-Builds ist MESHLAUNCH Cloud Mac Mini Miete meist die bessere Produktionswahl: dediziertes Apple Silicon, flexible Tages-/Wochen-/Monats-Tarife, Multi-Region-Knoten — mit DSGVO-konformer Datenverarbeitung bei EU-Standorten, kombiniert mit sinkenden API-Preisen. Siehe Cloud-Mac-Mietpreise.
Kurzfristig nein. Jalapeño ist nur Inferenz — kein Training. Nvidia behält Training; OpenAI erhielt im Februar 2026 eine 30-Mrd.-$-Nvidia-Investition. Strategie ist Lieferantendiversifikation und Verhandlungshebel, kein sauberer Bruch. CUDA-Ökosystem-Lock-in bleibt der tiefste Moat.
Broadcom-CEO Hock Tan nannte ~50 % Einsparung in frühen Labortests gegenüber Bloomberg. OpenAI betonte Leistung pro Watt ohne konkrete Prozentzahl. Keine unabhängige Validierung. Vollständiger Technikbericht in den kommenden Monaten — Launch-Zahlen als Richtwerte behandeln.
Erste kommerzielle Deployments zielen auf Ende 2026, beginnend mit Microsoft Azure und Partner-Rechenzentren. Großserienproduktion 2027 mit Deployment über 1,3 GW. ChatGPT, Codex und API-Inferenz haben Vorrang.
Bei bestätigten Einsparungen könnten ChatGPT- und API-Kosten weiter sinken und Latenz verbessern. Der KI-Preiskampf-Boden sinkt erneut. Lokale Entwicklungskosten für Agenten und Xcode-Builds bleiben unverändert — siehe unsere Preisseite.
OpenAI und Broadcom sagten, der Chip sei für aktuelle und zukünftige LLMs branchenweit gebaut — Hinweis auf externe Verfügbarkeit nach Massenproduktion 2027. OpenAIs eigene Inferenznachfrage hat Vorrang; Drittanbieter-Zugang ist späteres Gespräch.
Mehrgenerationen-Roadmap: nächster Chip 2028, danach jährliche Iterationen. Training-fokussierte Siliziumgenerationen möglich; Jalapeño v1 deckt nur Inferenz ab. 2029-Ziel: 10 GW Compute auf Custom-Chips.
Nvidia-Aktien bewegten sich am Ankündigungstag moderat. Märkte sehen Trainingsdominanz kurzfristig als sicher, aber Hyperscaler-Custom-Silizium ist struktureller Druck auf Inferenz-Anteile. Nvidias Vera-Rubin-Plattform und große Deployment-Abkommen sind die Gegenbewegung. Siehe unser Hilfezentrum für Dev-Environment-Fragen.