Почему OpenAI пошла в custom silicon: inference — главный opex-killer
OpenAI — один из крупнейших покупателей GPU в мире. Каждый запрос ChatGPT — это inference: forward pass, превращающий токены в ответ. По мере масштабирования GPT-4/GPT-5 inference стал крупнейшей строкой operating budget, растущей линейно с DAU.
До Jalapeño почти весь serving шёл на Nvidia H100, H200, Blackwell. Это general-purpose accelerators: отличны в training, graphics, simulation, но не заточены под однородный LLM-serving. При структурно идентичных запросах значительная доля silicon idle. GPU Nvidia — швейцарский нож; Jalapeño — скальпель.
Модели растут — счёт растёт: inference доминирует в opex; economies of scale без silicon efficiency не существует.
Architectural mismatch: general accelerator теряет efficiency на чистой token generation at scale.
Single-vendor leverage: lead time и pricing power у Nvidia — минимальная переговорная позиция даже у крупнейшего buyer.
Peers уже в production: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100, Meta MTIA.
Late entrant, fast execution: OpenAI стартовала последней среди hyperscalers, но заявляет рекордный ASIC tape-out — 9 месяцев от blank slate до silicon.
| Компания | Custom chip | Primary use |
|---|---|---|
| TPU | Training + inference | |
| Amazon | Trainium / Inferentia | Training + inference |
| Microsoft | Maia 100 | Inference |
| Meta | MTIA | Inference |
| OpenAI | Jalapeño (2026) | Inference only |
Партнёрство с Broadcom анонсировано в октябре 2025. Bloomberg оценивал будущие закупки OpenAI у Broadcom в десятки миллиардов долларов — логичное продолжение capex-гонки ($34B расходов OpenAI в 2025 при $13B revenue).
Benchmark claims и calculus coexistence с Nvidia
Цифры ниже — из материалов запуска и интервью Hock Tan. Это раннее internal testing. Полный technical report — через месяцы; независимых бенчмарков нет. До production telemetry трактуйте как vendor-reported directional data.
| Метрика | Jalapeño (early tests) | Референс |
|---|---|---|
| Inference cost savings | ~50% | vs mainstream AI GPU (Hock Tan, Bloomberg) |
| Performance per watt | Существенно выше SOTA | Официальный релиз OpenAI |
| Absolute throughput | На уровне Blackwell, Google TPU | Hock Tan, Reuters |
| Thermal profile | Лучше ожидаемого | Internal tests OpenAI |
| Development cycle | 9 месяцев design → tape-out | Заявлен fastest в классе advanced ASIC |
| Process node | TSMC 3nm | Тот же generation, что Apple M4, Blackwell |
«Пока Jalapeño показывает около 50% экономии по сравнению с типичными AI GPU.» — Hock Tan, CEO Broadcom, Bloomberg
Заменит ли Jalapeño Nvidia? Нет в горизонте 2–3 лет. Три причины: (1) Inference-only — training и fine-tuning остаются на Nvidia; в феврале 2026 Nvidia вложила $30B в OpenAI. (2) CUDA moat — десятилетие software stack, миллионы dev, optimized libraries. (3) ASIC inflexibility — смена архитектуры за пределами Transformer-паттернов требует нового silicon cycle.
Реальная ставка — diversification, не divorce. Даже 20–30% inference load на Jalapeño даёт measurable savings и leverage на оставшиеся GPU-закупки. Google, Amazon, Microsoft играют тот же сценарий. Ben Barringer (Quilter Cheviot): «Nobody wants to be beholden to Nvidia.»
Broadcom выигрывает в любом раскладе: custom ASIC для Google (TPU v5/v6), Meta (MTIA), теперь OpenAI (Jalapeño) — de facto foundry-for-hyperscalers. Акции AVGO +~18% за первые 5 месяцев 2026, почти 7× с конца 2022.
Внутри Jalapeño: blank-slate ASIC под LLM serving
ASIC с одной задачей: LLM inference. Без gaming, general compute, training kernels. Узкий scope — весь efficiency thesis: utilization ближе к theoretical peak, когда silicon совпадает с serving stack.
Richard Ho (hardware lead OpenAI): Jalapeño «designed from a blank slate for LLM inference» с учётом «kernel execution, memory movement, networking, serving patterns для frontier models». Ранние тесты — critical workloads «close to hardware theoretical limits».
Blank-slate design: каждое архитектурное решение под Transformer inference — не retrofit GPU shader model.
Minimized data movement: bottleneck inference часто HBM bandwidth; Jalapeño режет бесполезные shuffle между memory и compute.
Balanced compute / memory / network: FLOPs не idle в ожидании HBM на real serving loads.
Broadcom Tomahawk: cluster-scale inter-node bandwidth для multi-chip inference на крупнейших моделях; Tomahawk 6 — до 1,6 Tbps.
Celestica integration: EMS-партнёр — board-level, rack systems, mass-production server builds.
Engineering samples в лабораториях OpenAI уже на target frequency/power — включая GPT-5.3-Codex-Spark. Greg Brockman подтвердил 9-месячный tape-out и то, что собственные модели OpenAI ускорили части design/optimization workflow — meta-loop: модели, которые обслуживают users, улучшают infrastructure для следующего generation.
| Роль | Партнёр | Зона ответственности |
|---|---|---|
| Chip architecture | OpenAI | LLM inference optimization, full-stack architecture |
| Silicon & networking | Broadcom | Chip implementation, Tomahawk fabric, production |
| Foundry | TSMC | 3nm wafer fabrication |
| System integration | Celestica | Motherboards, racks, server integration at scale |
| First deployment | Microsoft Azure | Data-center rollout с конца 2026 |
OpenAI позиционирует full-stack advantage: не только frontier models и products, но chip architecture, kernels, memory systems, networking, scheduling, deployment systems, product experience. Каждый слой оптимизируется под единую цель — faster, reliable, affordable intelligence.
Лучший infrastructure → compute efficiency → лучший training/serving → более capable models → больше usage/revenue → reinvest в следующий generation silicon. Flywheel, который Jalapeño усиливает.
Шестишаговый runbook: адаптация стека под сдвиг inference economics
Если 50% savings подтвердятся в production, сдвигаются API pricing, model routing, cloud-vs-edge split. Шесть шагов сохраняют архитектурную гибкость в custom-silicon arms race.
Дождаться full technical report: не capacity-plan на launch-day vendor benchmarks. OpenAI обещала детальные цифры в ближайшие месяцы.
Встроить inference cost в architecture review: model routing, prompt caching, vendor selection — с допущением 30–50% potential relief на OpenAI-served workloads.
Разделить training и inference budgets: Jalapeño — только inference. Fine-tuning и pre-training — Nvidia GPU stacks; не смешивайте procurement.
Стабилизировать local agent hosts: дешевле cloud inference не отменяет dedicated edge dev machines. Codex debug, Xcode builds, 24/7 gateways — отдельный budget line.
Multi-provider fallbacks: чип «built for LLMs across the industry» — намёк на external availability. Critical paths — cross-provider сейчас.
Milestone dates → SLA review: late-2026 Azure, 2027 >1,3 GW, 2028 next-gen, 2029 10 GW — пересматривайте budgets на каждом gate. Hosting guidance — в центре помощи.
Roadmap развёртывания: от engineering samples до 10 GW
| Фаза | Срок | Milestone |
|---|---|---|
| Near term | Конец 2026 | Первые коммерческие Azure/partner deployments; приоритет ChatGPT, Codex, API inference |
| Mid term | 2027 | Mass production; deployment >1,3 GW; возможная external availability другим AI-фирмам |
| Long term | До 2029 | Custom silicon на 10 GW (~10 АЭС compute); next-gen chip 2028, annual iterations |
Хронология: окт 2025 — партнёрство OpenAI–Broadcom. фев 2026 — инвестиция Nvidia $30B. 24 июн 2026 — публичный launch Jalapeño; первые samples переданы Sam Altman и Greg Brockman (Hock Tan, Charlie Kawwas). конец 2026 — gigawatt-scale ЦОД с Microsoft и partners. 2027 — >1,3 GW deployed. 2028 — второе поколение silicon. 2029 — 10 GW на custom chips.
~50% inference cost: early Broadcom lab data; production validation pending.
9-month tape-out: заявлен fastest advanced ASIC cycle; AI-assisted design + hardware-software co-development.
10 GW к 2029: multi-generation roadmap в joint announcement OpenAI–Broadcom.
Gigawatt-scale с Microsoft: Hock Tan — deployment gigawatt data centers с Microsoft и partners с 2026.
Richard Ho отметил: устройство «very general purpose» в смысле будущих LLM innovations, но v1 сфокусирован на inference workloads OpenAI — real-time coding models, interactive products at scale. Pre-training по-прежнему на Nvidia.
Semiconductor fallout, key players и edge-стратегия
Конкуренция сместилась с model quality на full-stack efficiency. OpenAI проектирует infrastructure layer: chip, kernels, memory, networking, scheduling, deployment, UX — единый optimization target.
| Игрок | Позиция post-Jalapeño |
|---|---|
| Broadcom | Custom ASIC design hub; AVGO растёт на multi-hyperscaler pipeline |
| TSMC | 3nm foundry; загрузка от AI ASIC wave |
| SK Hynix / Samsung | HBM suppliers; спрос от accelerator clusters |
| Nvidia | Training dominance сохранён; давление на inference share; counter — Vera Rubin, $30B stake |
| AMD | Слабее в inference ASIC wave относительно custom silicon hyperscalers |
| Cerebras / Groq | Альтернативный thesis — onboard SRAM, data-movement reduction; Jalapeño бьёт в тот же bottleneck |
Key people: Greg Brockman (co-founder, full-stack infrastructure narrative), Richard Ho (hardware program), Hock Tan (cost/performance claims, gigawatt roadmap), Sam Altman (compute-as-lifeline, samples handoff).
Важно: «50%» — early Broadcom lab data на 2026-06-25. Валидируйте по full technical report OpenAI, Azure production telemetry и independent benchmarks до пересмотра financial models.
Дешевле cloud inference не чинит edge. Локальные Mac с Codex-агентами упираются в memory ceiling, sleep schedules, multi-project queueing. Для 24/7 gateways, Xcode CI, iOS builds аренда cloud Mac Mini MESHLAUNCH — production-fit: dedicated Apple Silicon, daily/weekly/monthly terms, multi-region nodes — сочетайте с падающими API prices вместо борьбы с нестабильностью laptop. Тарифы — страница цен; деплой — центр помощи.
В ближайшей перспективе — нет. Jalapeño только inference, без training. Nvidia сохраняет training; в феврале 2026 OpenAI приняла инвестицию Nvidia на $30B. Стратегия — диверсификация и negotiating leverage, не clean break. CUDA ecosystem — deepest moat.
CEO Broadcom Hock Tan назвал ~50% в early lab tests Bloomberg. OpenAI — performance per watt без точного процента. Third-party validation отсутствует. Full technical report — в ближайшие месяцы; launch numbers — directional.
Первые коммерческие развёртывания — конец 2026, старт Microsoft Azure и partner data centers. Mass production ramp в 2027, deployment >1,3 GW. Приоритет — ChatGPT, Codex, API inference.
При подтверждении savings в production — дальнейшее снижение ChatGPT/API, возможное улучшение latency. AI price-war floor опускается снова. Локальная разработка агентов и Xcode builds не дешевеет — см. тарифы аренды.
OpenAI и Broadcom: чип для current и future LLMs industry-wide — намёк на external availability после mass production 2027. Собственный inference demand OpenAI — first; third-party access — позже.
Multi-generation roadmap: next chip 2028, annual iterations. Training-focused silicon возможен позже; Jalapeño v1 — inference only. Цель 2029 — 10 GW compute на custom chips.
Акции Nvidia — умеренное движение в день анонса. Рынок видит training dominance как safe near-term, но hyperscaler custom silicon — structural pressure на inference share. Counter-move Nvidia — Vera Rubin и крупные deployment agreements. Dev-environment — центр помощи.