OpenAI × Broadcom stellen Jalapeño vor
Custom-Inferenz-ASIC, ~50 % günstiger als GPUs

TSMC 3nm · 9-Monats-Tape-out · Blackwell-Klasse · Azure zuerst · 10 GW bis 2029

OpenAI Jalapeño Custom-KI-Inferenz-Chip
Am 24. Juni 2026 präsentierten OpenAI und Broadcom Jalapeño — OpenAIs ersten Custom-LLM-Inferenz-ASIC. Frühe Labortests behaupten rund 50 % niedrigere Inferenzkosten gegenüber Mainstream-KI-GPUs, mit Leistung pro Watt über dem aktuellen Stand der Technik und absolutem Durchsatz auf Blackwell-Niveau, laut Reuters. Auf TSMC-3nm gefertigt und in neun Monaten bis zum Tape-out, landet Jalapeño Ende 2026 in Microsoft-Azure-Rechenzentren. Dieser datenbasierte Leitfaden liefert: (1) warum Inferenzökonomie den Schritt erzwang; (2) eine Hyperscaler-Custom-Chip-Matrix; (3) ASIC-Architektur, Tomahawk-Netzwerk und Celestica-Integration; (4) die Nvidia-Koexistenz und die 30-Mrd.-$-Februar-Investition; (5) Sechs-Schritte-Runbook plus Deployment-Zeitplan bis 10 GW 2029; (6) Branchenauswirkungen mit DSGVO-Hinweis zur Cloud-Datenverarbeitung.
01

Warum OpenAI eigene Chips baut: Inferenz frisst die Marge

OpenAI zählt zu den weltweit größten GPU-Käufern. Jede ChatGPT-Anfrage löst Inferenz aus — den Forward-Pass, der Tokens in Antworten verwandelt. Mit wachsenden GPT-4- und GPT-5-Familien ist Inferenz zur größten Einzelposition im OpenAI-Betriebsbudget geworden und skaliert linear mit täglichen aktiven Nutzern.

Bisher lief nahezu die gesamte Last auf Nvidia H100, H200 und Blackwell. Diese Chips sind General-Purpose-Arbeitstiere — exzellent für Training, Grafik und Simulation, aber nicht laserfokussiert auf homogenes LLM-Serving. Bei strukturell ähnlichen Anfragen sitzt viel Silizium idle. Nvidia-GPUs sind ein Schweizer Taschenmesser; Jalapeño ist ein Skalpell.

01

Größere Modelle, größere Rechnungen: Inferenz dominiert Opex und skaliert mit Nutzerwachstum — ohne Silizium-Effizienz gibt es keinen Skaleneffekt.

02

GPU-Architektur-Mismatch: General-Beschleuniger opfern Effizienz, wenn die Aufgabe reine Token-Generierung in großem Maßstab ist.

03

Einzelanbieter-Hebel: Lieferzeiten und Preismacht lagen fast vollständig bei Nvidia — wenig Verhandlungsspielraum für den größten Käufer.

04

Peers zogen vor: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100 und Meta MTIA sind bereits in Produktion.

05

Später Einstieg, schnelle Ausführung: OpenAI startete zuletzt unter Hyperscalern, beansprucht aber den schnellsten High-Performance-ASIC-Tape-out — neun Monate von Blankoslate bis Silizium.

UnternehmenCustom-ChipHauptnutzung
GoogleTPUTraining + Inferenz
AmazonTrainium / InferentiaTraining + Inferenz
MicrosoftMaia 100Inferenz
MetaMTIAInferenz
OpenAIJalapeño (2026)Nur Inferenz

Reuters berichtete erstmals 2023 über OpenAIs Chip-Pläne. Im Oktober 2025 kündigten OpenAI und Broadcom die Partnerschaft an. Bloomberg schätzt OpenAIs Broadcom-Chip-Ausgaben auf zig Milliarden Dollar — zusätzlich zu den massiven GPU-Budgets.

02

Benchmark-Behauptungen und die Nvidia-Koexistenz-Rechnung

Die Zahlen stammen von Broadcom-CEO Hock Tan und OpenAIs Launch-Material. Sie reflektieren frühe interne Tests. Ein vollständiger Technikbericht liegt Monate entfernt; unabhängige Benchmarks existieren noch nicht. Bis Produktionstelemetrie vorliegt, als anbietergemeldete Richtwerte behandeln.

KennzahlJalapeño (frühe Tests)Referenz
Inferenz-Kosteneinsparung~50 %vs. Mainstream-KI-GPUs (Hock Tan, Bloomberg)
Leistung pro WattDeutlich über SOTAOpenAI offizielle Aussage
Absoluter DurchsatzAuf Blackwell-, Google-TPU-NiveauHock Tan, Reuters
Thermisches ProfilBesser als erwartetOpenAI interne Tests
Entwicklungszyklus9 Monate Design bis Tape-outSchnellster Zyklus in Advanced-ASIC-Klasse (behauptet)
ProzessknotenTSMC 3nmGleiche Generation wie Apple M4, Blackwell

„Bisher hat Jalapeño etwa 50 % Kosteneinsparung gegenüber typischen KI-GPUs gezeigt." — Hock Tan, Broadcom-CEO, Bloomberg-Interview

Kann Jalapeño Nvidia ersetzen? Kurzfristig nein. Drei Gründe: (1) Nur Inferenz — Training und Fine-Tuning laufen weiter auf Nvidia; im Februar 2026 investierte Nvidia 30 Mrd. $ direkt in OpenAI. (2) CUDA-Moat — ein Jahrzehnt Software, Millionen Entwickler und optimierte Libraries sind schwerer zu verdrängen als Hardware. (3) ASIC-Inflexibilität — weicht LLM-Architektur über Transformer-Muster hinaus, ist Retargeting teuer und langsam.

Das eigentliche Spiel ist Diversifikation, kein Bruch. Selbst 20–30 % Inferenzlast auf Jalapeño spart real und stärkt Verhandlungsmacht bei verbleibenden GPU-Käufen. Google, Amazon und Microsoft folgen demselben Playbook. Quilter-Cheviot-Tech-Chef Ben Barringer: „Niemand will von Nvidia abhängig sein."

Broadcom gewinnt in jedem Fall: Das Unternehmen designt Custom-ASICs für Google (TPU v5/v6), Meta (MTIA) und jetzt OpenAI (Jalapeño) — effektiv die Foundry für die Foundry-losen. Broadcom-Aktien stiegen in den ersten fünf Monaten 2026 ~18 % und seit Ende 2022 fast 7×.

03

Im Inneren von Jalapeño: Blankoslate-ASIC für LLM-Serving

ASIC (Application-Specific Integrated Circuit) bedeutet eine Aufgabe: LLM-Inferenz. Kein Gaming, keine General-Compute, keine Training-Kernels. Dieser enge Scope ist die gesamte Effizienzthese — wenn Silizium genau das tut, was der Serving-Stack braucht, steigt die Auslastung Richtung theoretische Spitzen.

Richard Ho, OpenAIs Hardware-Leiter, sagte, Jalapeño sei „von Grund auf für LLM-Inferenz entworfen" und integriere tiefes Wissen über „Kernel-Ausführung, Speicherbewegung, Netzwerk und Serving-Muster für Frontier-Modelle". Frühe Tests zeigen kritische Workloads „nahe an den theoretischen Hardware-Grenzen".

A

Blankoslate-Design: Jede Architekturentscheidung zielt auf Transformer-Inferenz — nicht retrofitted von einem GPU-Shader-Modell.

B

Minimierte Datenbewegung: LLM-Inferenz bottlenecket oft auf Speicherbandbreite; Jalapeño reduziert nutzlose Shuffles zwischen Memory und Compute.

C

Ausgewogenes Compute / Memory / Netzwerk: Abgestimmt auf reale Serving-Lasten, damit FLOPs nicht auf HBM warten.

D

Broadcom Tomahawk-Netzwerk: Cluster-Skala Inter-Node-Bandbreite für Multi-Chip-Inferenz der größten Modelle.

E

Celestica-Integration: EMS-Partner übernimmt Board-Integration, Rack-Systeme und Massenproduktion der Server.

Engineering-Samples laufen bereits mit Ziel-Frequenz und -Leistung in OpenAI-Laboren — inklusive GPT-5.3-Codex-Spark, einem Flaggschiff-Coding-Inferenzmodell. Mitgründer Greg Brockman bestätigte den neunmonatigen Tape-out und dass OpenAIs eigene KI-Modelle Teile des Design- und Optimierungsworkflows beschleunigten.

RollePartnerVerantwortung
Chip-ArchitekturOpenAILLM-Inferenz-Optimierung, Full-Stack-Architektur
Silizium & NetzwerkBroadcomChip-Implementierung, Tomahawk-Fabric, Produktionsunterstützung
FoundryTSMC3nm-Wafer-Fertigung
SystemintegrationCelesticaMainboards, Racks, Server-Integration in großem Maßstab
Erstes DeploymentMicrosoft AzureRechenzentrum-Rollout ab Ende 2026

OpenAI bezeichnet Jalapeño als ersten „Intelligence Processor" — kein modifizierter General-Purpose-Beschleuniger, sondern ein Clean-Slate-Design für moderne LLM-Inferenz, informiert durch die Workloads, die OpenAI täglich in Produktion betreibt. Chips und Server werden ausschließlich von OpenAI genutzt; Celestica baut die Systeme in Kanada.

04

Sechs-Schritte-Runbook: Stack anpassen, wenn Inferenzökonomie kippt

Halten sich 50 % Inferenz-Einsparungen in Produktion, verschieben sich API-Preise, Modell-Routing und Cloud-vs.-Edge-Splits. Diese sechs Schritte halten die Architektur flexibel durch das Custom-Silizium-Rennen — inklusive DSGVO-relevanter Cloud-Datenprüfung.

01

Auf vollständigen Technikbericht warten: Nicht auf Launch-Day-Vendor-Benchmarks kapazitätsplanen. OpenAI versprach detaillierte Zahlen in den kommenden Monaten.

02

Inferenzkosten in Architektur-Reviews verankern: Modell-Routing, Prompt-Caching und API-Anbieterwahl sollten 30–50 % potenzielle Kostenerleichterung auf OpenAI-Serving-Workloads annehmen.

03

Training von Inferenz-Budgets trennen: Jalapeño deckt nur Inferenz. Fine-Tuning und Pre-Training bleiben auf Nvidia-GPU-Stacks — Beschaffungspläne nicht vermischen.

04

Lokale Agent-Hosts stabilisieren: Günstigere Cloud-Inferenz eliminiert nicht dedizierte Edge-Dev-Maschinen. Codex-Debugging, Xcode-Builds und 7×24-Gateways brauchen Apple Silicon.

05

Multi-Provider-Fallbacks designen: OpenAI sagt, der Chip sei „für LLMs branchenweit gebaut" — Hinweis auf externe Verfügbarkeit. Kritische Pfade jetzt über Anbieter routen.

06

Meilensteine an SLAs koppeln: Azure-Deploy Ende 2026, 2027 >1,3 GW, 2028 Next-Gen-Silizium, 2029 10-GW-Ziel — Budgets an jedem Gate prüfen. DSGVO: AVV und Datenfluss-Dokumentation bei Cloud-APIs mit personenbezogenen Prompts aktualisieren. Siehe Hilfezentrum.

05

Deployment-Roadmap und Meilenstein-Zeitplan

PhaseZeitpunktMeilenstein
KurzfristigEnde 2026Erste kommerzielle Azure- und Partner-Deployments; ChatGPT, Codex, API-Inferenz priorisiert
Mittelfristig2027Massenproduktion; Deployment über 1,3 GW; mögliche externe Verfügbarkeit für andere KI-Firmen
LangfristigBis 2029Custom-Silizium unterstützt 10 GW (~10 Kernkraftwerke Compute); Next-Gen-Chip 2028, danach jährliche Iterationen

Vollständige Timeline: Okt. 2025 — OpenAI und Broadcom kündigen Partnerschaft. Feb. 2026 — Nvidias 30-Mrd.-$-Direktinvestition in OpenAI. 24. Jun. 2026 — Jalapeño-Public-Launch. Ende 2026 — erste kommerzielle Deployments in Gigawatt-Skala mit Microsoft und Partnern. 2027 — >1,3 GW deployed. 2028 — zweite Chip-Generation. 2029 — 10-GW-Compute-Ziel auf Custom-Silizium.

Hock Tan sagte, Broadcom habe Microsoft verlangt, 40 % der Chips zu garantieren, um die erste Phase abzusichern. Tan erwartet Gigawatt-Skala-Rechenzentren mit Microsoft und anderen Partnern ab 2026 und glaubt, die eigenen Deployment-Prognosen übertreffen zu können.

A

~50 % Inferenz-Kosteneinsparung: Frühe Broadcom-Labordaten via Bloomberg/Reuters; Produktionsvalidierung ausstehend.

B

9-Monats-Tape-out: Schnellster Advanced-ASIC-Zyklus (behauptet); KI-assistiertes Design plus Hardware-Software-Co-Design.

C

10 GW bis 2029: Mehrgenerationen-Roadmap bereits in der OpenAI–Broadcom-Gemeinschaftsmeldung kartiert.

OpenAIs Blog formulierte die Verschiebung klar: Das Unternehmen „entwickelt nicht nur Frontier-Modelle oder Produkte darauf — es designt die Infrastruktur darunter: Chip-Architektur, Kernels, Speichersysteme, Netzwerk, Scheduling, Deployment-Systeme und Produkterlebnis." Wettbewerb ist nicht mehr nur Modellqualität — es geht um Full-Stack-Effizienz.

06

Branchenauswirkungen, Halbleiter-Ökosystem und DSGVO bei Cloud-Daten

Halbleiter-Gewinner: Broadcom (Custom-ASIC-Design), TSMC (3nm-Foundry) und HBM-Lieferanten SK Hynix und Samsung. Druck auf Nvidia (Inferenz-Anteilsverlust) und AMD (schwächere Position in der Inferenz-ASIC-Welle). Tan räumte ein, dass Custom-KI-Chip-Margen wegen HBM-Nachfrage niedriger sind als bei Netzwerk-Switches.

Schlüsselpersonen: Greg Brockman (Mitgründer, öffentliche Ankündigung), Richard Ho (Hardware-Leiter), Hock Tan (Broadcom-CEO, Kosten- und Leistungsbehauptungen), Sam Altman (CEO, Compute-als-Lebensader-Strategie).

AkteurPositionJalapeño-Impact
NvidiaTraining + Inferenz-DominanzInferenz-Anteil unter Druck; Vera-Rubin und große Deployment-Deals als Gegenbewegung
AMDGPU-AlternativeSchwächer in Inferenz-ASIC-Welle; weniger Custom-Design-Mandate
MicrosoftAzure + OpenAI-PartnerErstes Deployment; 40-%-Chip-Garantie (berichtet); Maia 100 parallel
EU-EntwicklerAPI-Nutzer mit DSGVO-PflichtenGünstigere Inferenz ändert nichts an AVV, Datenstandort und Prompt-Inhalten

Hinweis: Die „50-%-Zahl" bleibt frühe Broadcom-Labordaten Stand 2026-06-25. Gegen OpenAIs vollständigen Technikbericht, Azure-Produktionstelemetrie und unabhängige Benchmarks validieren, bevor Finanzmodelle revidiert werden.

DSGVO-Relevanz: Jalapeño verarbeitet Inferenz in OpenAI-/Azure-Rechenzentren — oft außerhalb der EU. Personenbezogene Daten in ChatGPT- oder API-Prompts unterliegen weiterhin Art. 28 DSGVO (Auftragsverarbeitung), Art. 44 ff. (Drittlandtransfer) und erfordern dokumentierte Rechtsgrundlagen, AVV mit OpenAI/Microsoft und ggf. Standardvertragsklauseln. Günstigere Tokens senken nicht die Compliance-Pflicht. Für sensible Workloads: EU-Hosting für lokale Agenten und Build-Pipelines prüfen.

Günstigere Cloud-Inferenz repariert nicht die Edge. Lokale Macs mit Codex-Agenten stoßen weiterhin an Speicherdecken, Sleep-Zyklen und Multi-Projekt-Queues. Für 7×24-Gateways, Xcode-CI und iOS-Builds ist MESHLAUNCH Cloud Mac Mini Miete meist die bessere Produktionswahl: dediziertes Apple Silicon, flexible Tages-/Wochen-/Monats-Tarife, Multi-Region-Knoten — mit DSGVO-konformer Datenverarbeitung bei EU-Standorten, kombiniert mit sinkenden API-Preisen. Siehe Cloud-Mac-Mietpreise.

FAQ

Kurzfristig nein. Jalapeño ist nur Inferenz — kein Training. Nvidia behält Training; OpenAI erhielt im Februar 2026 eine 30-Mrd.-$-Nvidia-Investition. Strategie ist Lieferantendiversifikation und Verhandlungshebel, kein sauberer Bruch. CUDA-Ökosystem-Lock-in bleibt der tiefste Moat.

Broadcom-CEO Hock Tan nannte ~50 % Einsparung in frühen Labortests gegenüber Bloomberg. OpenAI betonte Leistung pro Watt ohne konkrete Prozentzahl. Keine unabhängige Validierung. Vollständiger Technikbericht in den kommenden Monaten — Launch-Zahlen als Richtwerte behandeln.

Erste kommerzielle Deployments zielen auf Ende 2026, beginnend mit Microsoft Azure und Partner-Rechenzentren. Großserienproduktion 2027 mit Deployment über 1,3 GW. ChatGPT, Codex und API-Inferenz haben Vorrang.

Bei bestätigten Einsparungen könnten ChatGPT- und API-Kosten weiter sinken und Latenz verbessern. Der KI-Preiskampf-Boden sinkt erneut. Lokale Entwicklungskosten für Agenten und Xcode-Builds bleiben unverändert — siehe unsere Preisseite.

OpenAI und Broadcom sagten, der Chip sei für aktuelle und zukünftige LLMs branchenweit gebaut — Hinweis auf externe Verfügbarkeit nach Massenproduktion 2027. OpenAIs eigene Inferenznachfrage hat Vorrang; Drittanbieter-Zugang ist späteres Gespräch.

Mehrgenerationen-Roadmap: nächster Chip 2028, danach jährliche Iterationen. Training-fokussierte Siliziumgenerationen möglich; Jalapeño v1 deckt nur Inferenz ab. 2029-Ziel: 10 GW Compute auf Custom-Chips.

Nvidia-Aktien bewegten sich am Ankündigungstag moderat. Märkte sehen Trainingsdominanz kurzfristig als sicher, aber Hyperscaler-Custom-Silizium ist struktureller Druck auf Inferenz-Anteile. Nvidias Vera-Rubin-Plattform und große Deployment-Abkommen sind die Gegenbewegung. Siehe unser Hilfezentrum für Dev-Environment-Fragen.