OpenAI × Broadcom: Jalapeño
кастомный inference ASIC, ~−50% к GPU

TSMC 3nm · tape-out 9 мес · perf класса Blackwell · Azure first · 10 GW к 2029

OpenAI Jalapeño — кастомный ASIC для LLM-inference
24 июня 2026 OpenAI и Broadcom (NASDAQ: AVGO) представили Jalapeño — первый Intelligence Processor OpenAI: ASIC, спроектированный под LLM-inference, а не адаптированный general-purpose accelerator. Ранние лабораторные тесты фиксируют ~50% снижение стоимости inference относительно mainstream AI GPU (Hock Tan, Bloomberg), performance per watt существенно выше SOTA, абсолютный throughput на уровне Nvidia Blackwell (Reuters). Процесс TSMC 3nm, tape-out за 9 месяцев, engineering samples уже крутят GPT-5.3-Codex-Spark на target frequency/power. Первое коммерческое развёртывание — Microsoft Azure к концу 2026. Материал: (1) economics inference и матрица hyperscaler ASIC; (2) claims, coexistence с Nvidia и $30B инвестиция фев 2026; (3) blank-slate архитектура, Tomahawk, Celestica; (4) шестишаговый runbook; (5) timeline до 10 GW к 2029; (6) semiconductor fallout и edge-стратегия.
01

Почему OpenAI пошла в custom silicon: inference — главный opex-killer

OpenAI — один из крупнейших покупателей GPU в мире. Каждый запрос ChatGPT — это inference: forward pass, превращающий токены в ответ. По мере масштабирования GPT-4/GPT-5 inference стал крупнейшей строкой operating budget, растущей линейно с DAU.

До Jalapeño почти весь serving шёл на Nvidia H100, H200, Blackwell. Это general-purpose accelerators: отличны в training, graphics, simulation, но не заточены под однородный LLM-serving. При структурно идентичных запросах значительная доля silicon idle. GPU Nvidia — швейцарский нож; Jalapeño — скальпель.

01

Модели растут — счёт растёт: inference доминирует в opex; economies of scale без silicon efficiency не существует.

02

Architectural mismatch: general accelerator теряет efficiency на чистой token generation at scale.

03

Single-vendor leverage: lead time и pricing power у Nvidia — минимальная переговорная позиция даже у крупнейшего buyer.

04

Peers уже в production: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100, Meta MTIA.

05

Late entrant, fast execution: OpenAI стартовала последней среди hyperscalers, но заявляет рекордный ASIC tape-out — 9 месяцев от blank slate до silicon.

КомпанияCustom chipPrimary use
GoogleTPUTraining + inference
AmazonTrainium / InferentiaTraining + inference
MicrosoftMaia 100Inference
MetaMTIAInference
OpenAIJalapeño (2026)Inference only

Партнёрство с Broadcom анонсировано в октябре 2025. Bloomberg оценивал будущие закупки OpenAI у Broadcom в десятки миллиардов долларов — логичное продолжение capex-гонки ($34B расходов OpenAI в 2025 при $13B revenue).

02

Benchmark claims и calculus coexistence с Nvidia

Цифры ниже — из материалов запуска и интервью Hock Tan. Это раннее internal testing. Полный technical report — через месяцы; независимых бенчмарков нет. До production telemetry трактуйте как vendor-reported directional data.

МетрикаJalapeño (early tests)Референс
Inference cost savings~50%vs mainstream AI GPU (Hock Tan, Bloomberg)
Performance per wattСущественно выше SOTAОфициальный релиз OpenAI
Absolute throughputНа уровне Blackwell, Google TPUHock Tan, Reuters
Thermal profileЛучше ожидаемогоInternal tests OpenAI
Development cycle9 месяцев design → tape-outЗаявлен fastest в классе advanced ASIC
Process nodeTSMC 3nmТот же generation, что Apple M4, Blackwell

«Пока Jalapeño показывает около 50% экономии по сравнению с типичными AI GPU.» — Hock Tan, CEO Broadcom, Bloomberg

Заменит ли Jalapeño Nvidia? Нет в горизонте 2–3 лет. Три причины: (1) Inference-only — training и fine-tuning остаются на Nvidia; в феврале 2026 Nvidia вложила $30B в OpenAI. (2) CUDA moat — десятилетие software stack, миллионы dev, optimized libraries. (3) ASIC inflexibility — смена архитектуры за пределами Transformer-паттернов требует нового silicon cycle.

Реальная ставка — diversification, не divorce. Даже 20–30% inference load на Jalapeño даёт measurable savings и leverage на оставшиеся GPU-закупки. Google, Amazon, Microsoft играют тот же сценарий. Ben Barringer (Quilter Cheviot): «Nobody wants to be beholden to Nvidia.»

Broadcom выигрывает в любом раскладе: custom ASIC для Google (TPU v5/v6), Meta (MTIA), теперь OpenAI (Jalapeño) — de facto foundry-for-hyperscalers. Акции AVGO +~18% за первые 5 месяцев 2026, почти 7× с конца 2022.

03

Внутри Jalapeño: blank-slate ASIC под LLM serving

ASIC с одной задачей: LLM inference. Без gaming, general compute, training kernels. Узкий scope — весь efficiency thesis: utilization ближе к theoretical peak, когда silicon совпадает с serving stack.

Richard Ho (hardware lead OpenAI): Jalapeño «designed from a blank slate for LLM inference» с учётом «kernel execution, memory movement, networking, serving patterns для frontier models». Ранние тесты — critical workloads «close to hardware theoretical limits».

A

Blank-slate design: каждое архитектурное решение под Transformer inference — не retrofit GPU shader model.

B

Minimized data movement: bottleneck inference часто HBM bandwidth; Jalapeño режет бесполезные shuffle между memory и compute.

C

Balanced compute / memory / network: FLOPs не idle в ожидании HBM на real serving loads.

D

Broadcom Tomahawk: cluster-scale inter-node bandwidth для multi-chip inference на крупнейших моделях; Tomahawk 6 — до 1,6 Tbps.

E

Celestica integration: EMS-партнёр — board-level, rack systems, mass-production server builds.

Engineering samples в лабораториях OpenAI уже на target frequency/power — включая GPT-5.3-Codex-Spark. Greg Brockman подтвердил 9-месячный tape-out и то, что собственные модели OpenAI ускорили части design/optimization workflow — meta-loop: модели, которые обслуживают users, улучшают infrastructure для следующего generation.

РольПартнёрЗона ответственности
Chip architectureOpenAILLM inference optimization, full-stack architecture
Silicon & networkingBroadcomChip implementation, Tomahawk fabric, production
FoundryTSMC3nm wafer fabrication
System integrationCelesticaMotherboards, racks, server integration at scale
First deploymentMicrosoft AzureData-center rollout с конца 2026

OpenAI позиционирует full-stack advantage: не только frontier models и products, но chip architecture, kernels, memory systems, networking, scheduling, deployment systems, product experience. Каждый слой оптимизируется под единую цель — faster, reliable, affordable intelligence.

Лучший infrastructure → compute efficiency → лучший training/serving → более capable models → больше usage/revenue → reinvest в следующий generation silicon. Flywheel, который Jalapeño усиливает.

04

Шестишаговый runbook: адаптация стека под сдвиг inference economics

Если 50% savings подтвердятся в production, сдвигаются API pricing, model routing, cloud-vs-edge split. Шесть шагов сохраняют архитектурную гибкость в custom-silicon arms race.

01

Дождаться full technical report: не capacity-plan на launch-day vendor benchmarks. OpenAI обещала детальные цифры в ближайшие месяцы.

02

Встроить inference cost в architecture review: model routing, prompt caching, vendor selection — с допущением 30–50% potential relief на OpenAI-served workloads.

03

Разделить training и inference budgets: Jalapeño — только inference. Fine-tuning и pre-training — Nvidia GPU stacks; не смешивайте procurement.

04

Стабилизировать local agent hosts: дешевле cloud inference не отменяет dedicated edge dev machines. Codex debug, Xcode builds, 24/7 gateways — отдельный budget line.

05

Multi-provider fallbacks: чип «built for LLMs across the industry» — намёк на external availability. Critical paths — cross-provider сейчас.

06

Milestone dates → SLA review: late-2026 Azure, 2027 >1,3 GW, 2028 next-gen, 2029 10 GW — пересматривайте budgets на каждом gate. Hosting guidance — в центре помощи.

05

Roadmap развёртывания: от engineering samples до 10 GW

ФазаСрокMilestone
Near termКонец 2026Первые коммерческие Azure/partner deployments; приоритет ChatGPT, Codex, API inference
Mid term2027Mass production; deployment >1,3 GW; возможная external availability другим AI-фирмам
Long termДо 2029Custom silicon на 10 GW (~10 АЭС compute); next-gen chip 2028, annual iterations

Хронология: окт 2025 — партнёрство OpenAI–Broadcom. фев 2026 — инвестиция Nvidia $30B. 24 июн 2026 — публичный launch Jalapeño; первые samples переданы Sam Altman и Greg Brockman (Hock Tan, Charlie Kawwas). конец 2026 — gigawatt-scale ЦОД с Microsoft и partners. 2027 — >1,3 GW deployed. 2028 — второе поколение silicon. 2029 — 10 GW на custom chips.

A

~50% inference cost: early Broadcom lab data; production validation pending.

B

9-month tape-out: заявлен fastest advanced ASIC cycle; AI-assisted design + hardware-software co-development.

C

10 GW к 2029: multi-generation roadmap в joint announcement OpenAI–Broadcom.

D

Gigawatt-scale с Microsoft: Hock Tan — deployment gigawatt data centers с Microsoft и partners с 2026.

Richard Ho отметил: устройство «very general purpose» в смысле будущих LLM innovations, но v1 сфокусирован на inference workloads OpenAI — real-time coding models, interactive products at scale. Pre-training по-прежнему на Nvidia.

06

Semiconductor fallout, key players и edge-стратегия

Конкуренция сместилась с model quality на full-stack efficiency. OpenAI проектирует infrastructure layer: chip, kernels, memory, networking, scheduling, deployment, UX — единый optimization target.

ИгрокПозиция post-Jalapeño
BroadcomCustom ASIC design hub; AVGO растёт на multi-hyperscaler pipeline
TSMC3nm foundry; загрузка от AI ASIC wave
SK Hynix / SamsungHBM suppliers; спрос от accelerator clusters
NvidiaTraining dominance сохранён; давление на inference share; counter — Vera Rubin, $30B stake
AMDСлабее в inference ASIC wave относительно custom silicon hyperscalers
Cerebras / GroqАльтернативный thesis — onboard SRAM, data-movement reduction; Jalapeño бьёт в тот же bottleneck

Key people: Greg Brockman (co-founder, full-stack infrastructure narrative), Richard Ho (hardware program), Hock Tan (cost/performance claims, gigawatt roadmap), Sam Altman (compute-as-lifeline, samples handoff).

Важно: «50%» — early Broadcom lab data на 2026-06-25. Валидируйте по full technical report OpenAI, Azure production telemetry и independent benchmarks до пересмотра financial models.

Дешевле cloud inference не чинит edge. Локальные Mac с Codex-агентами упираются в memory ceiling, sleep schedules, multi-project queueing. Для 24/7 gateways, Xcode CI, iOS builds аренда cloud Mac Mini MESHLAUNCH — production-fit: dedicated Apple Silicon, daily/weekly/monthly terms, multi-region nodes — сочетайте с падающими API prices вместо борьбы с нестабильностью laptop. Тарифы — страница цен; деплой — центр помощи.

FAQ

В ближайшей перспективе — нет. Jalapeño только inference, без training. Nvidia сохраняет training; в феврале 2026 OpenAI приняла инвестицию Nvidia на $30B. Стратегия — диверсификация и negotiating leverage, не clean break. CUDA ecosystem — deepest moat.

CEO Broadcom Hock Tan назвал ~50% в early lab tests Bloomberg. OpenAI — performance per watt без точного процента. Third-party validation отсутствует. Full technical report — в ближайшие месяцы; launch numbers — directional.

Первые коммерческие развёртывания — конец 2026, старт Microsoft Azure и partner data centers. Mass production ramp в 2027, deployment >1,3 GW. Приоритет — ChatGPT, Codex, API inference.

При подтверждении savings в production — дальнейшее снижение ChatGPT/API, возможное улучшение latency. AI price-war floor опускается снова. Локальная разработка агентов и Xcode builds не дешевеет — см. тарифы аренды.

OpenAI и Broadcom: чип для current и future LLMs industry-wide — намёк на external availability после mass production 2027. Собственный inference demand OpenAI — first; third-party access — позже.

Multi-generation roadmap: next chip 2028, annual iterations. Training-focused silicon возможен позже; Jalapeño v1 — inference only. Цель 2029 — 10 GW compute на custom chips.

Акции Nvidia — умеренное движение в день анонса. Рынок видит training dominance как safe near-term, но hyperscaler custom silicon — structural pressure на inference share. Counter-move Nvidia — Vera Rubin и крупные deployment agreements. Dev-environment — центр помощи.