OpenAI × 博通发布首款自研芯片 Jalapeño
推理成本直降 50%

ASIC 架构 · 台积电 3nm · 9 个月流片 · 英伟达互补而非替代 · 10 GW 算力路线图

OpenAI Jalapeño 自研 AI 推理芯片
2026 年 6 月 24 日,OpenAI 与博通(Broadcom)联合发布首款定制 AI 推理芯片 Jalapeño,早期测试声称相比主流 AI GPU 可节省约 50% 推理成本,由台积电 3nm 工艺制造,9 个月完成流片。本文面向 AI 开发者与技术负责人,给出:① 自研芯片背景与大厂对比;② Jalapeño ASIC 架构与性能数据;③ 产业链、部署路线图与英伟达竞争格局;④ 六步应对 Runbook 与七问 FAQ。
01

OpenAI 为什么要造自己的芯片?推理成本成最大瓶颈

OpenAI 是全球最大的 GPU 消耗方之一。每当用户向 ChatGPT 提问,背后服务器群组就需要持续消耗大量算力完成推理(Inference)——即模型根据输入生成回答的过程。随着 GPT-4、GPT-5 系列模型能力持续升级,推理成本已成为 OpenAI 盈利路径上最重的一块石头。

过去,OpenAI 几乎完全依赖英伟达 GPU 运行推理和训练。英伟达 H100、H200、Blackwell 系列固然强大,但它们是通用加速器——为各种任务设计,而非专门为 LLM 推理优化。在 LLM 这个高度同质化的场景里,大量算力开销实际上是浪费。类比来说:英伟达 GPU 是一把瑞士军刀,而 Jalapeño 是一把专业手术刀。

01

模型越强,算力账单越贵:推理是 OpenAI 运营支出最大的单项,随日活用户规模线性放大。

02

通用 GPU 架构错配:GPU 为游戏、仿真、训练、推理多场景设计,纯推理场景效率损失显著。

03

单一供应商风险:供货周期、涨价节奏完全受制于英伟达,谈判筹码不足。

04

竞争对手早已入局:Google TPU、Amazon Trainium/Inferentia、Microsoft Maia 100、Meta MTIA 均已量产。

05

OpenAI 入局最晚但步子快:大厂中最后启动自研,但 9 个月完成流片创 ASIC 开发纪录。

公司自研芯片用途
GoogleTPU训练 + 推理
AmazonTrainium / Inferentia训练 + 推理
MicrosoftMaia 100推理
MetaMTIA推理
OpenAIJalapeño(2026)推理
02

Jalapeño 性能数据与英伟达竞争格局对比

以下数据来自博通 CEO 陈福阳及 OpenAI 官方声明,均为早期测试结果。完整技术报告将于数月后发布,独立第三方验证尚未完成,需以「官方自测数字」看待。

指标Jalapeño(早期测试)对比基准
推理成本节省50%相比当前主流 AI GPU
每瓦性能显著优于当前最先进水平OpenAI 官方声明
性能绝对值与英伟达 Blackwell、谷歌 TPU 相当博通 CEO 路透社采访
热耗散表现优于预期OpenAI 内部测试
开发周期9 个月(设计到流片)声称高性能 ASIC 领域最快
制造工艺台积电 3nm与苹果 M4、Blackwell 同代

「到目前为止,Jalapeño 相比典型 AI GPU 展现出约 50% 的成本节省。」——博通 CEO 陈福阳(Hock Tan),Bloomberg 采访

Jalapeño 能替代英伟达吗?短期内不能。原因有三:① 只做推理,不做训练——2026 年 2 月英伟达以 300 亿美元直接投资 OpenAI,训练阶段仍高度依赖英伟达;② CUDA 软件生态用十余年构建,数百万开发者与海量优化库是最难跨越的护城河;③ ASIC 高度专一,若 LLM 架构发生根本性改变(如不再是 Transformer),适配成本很高。

战略意义在于「分散供应,谈判筹码」:哪怕 Jalapeño 只承担 20%~30% 推理负载,也意味着真实节约大量成本、获得与英伟达谈判采购价格的底气、不再受单一供应商约束。这与谷歌、亚马逊、微软策略一致:不是「抛弃英伟达」,而是「不再完全依赖英伟达」。 Quilter Cheviot 全球科技研究主管 Ben Barringer 直言:「Nobody wants to be beholden to Nvidia.」

博通崛起:博通正成为「AI 定制芯片界的代工皇」——同时为 Google(TPU v5/v6)、Meta(MTIA)和 OpenAI(Jalapeño)设计定制 ASIC。2026 年前 5 个月博通股价年涨幅约 18%,自 2022 年底以来累计涨幅接近 7 倍。

03

Jalapeño 技术架构:ASIC 从零设计,专为 LLM 推理

ASIC(Application-Specific Integrated Circuit,专用集成电路)意味着这块芯片只做一件事——LLM 推理。它不玩游戏,不跑训练,不做通用计算。高度专一带来的好处是:在它专攻的领域,效率极高。

OpenAI 硬件负责人 Richard Ho 表示:「Jalapeño 从零开始,专为 LLM 推理设计,融入了我们对前沿模型在内核执行、内存移动、网络通信和服务模式方面的深刻洞察。早期测试证明,它能在接近硬件理论极限的状态下高效运行我们最重要的工作负载。」

A

从零设计(Blank-slate Design):以现代 LLM 推理为出发点重新设计,每一个设计决策都围绕 Transformer 架构运算模式。

B

最小化数据搬运:LLM 推理瓶颈往往在内存带宽而非算力;架构专门减少内存与计算单元之间的无效搬运。

C

计算/内存/网络均衡:针对 LLM 实际负载特征做专项平衡,实际利用率更接近理论峰值。

D

博通 Tomahawk 网络互联:大规模集群部署时具备强大节点间通信能力,多卡协同推理超大模型至关重要。

E

Celestica 板卡集成:电子制造服务商负责芯片集成进服务器主板、机架系统,提供规模化量产能力。

工程样品目前已在 OpenAI 实验室中以目标频率和功耗运行 ML 工作负载,包括 GPT-5.3-Codex-Spark——面向编程场景的旗舰推理模型之一。OpenAI 总裁 Greg Brockman 补充:Jalapeño 从初始设计到流片只用了 9 个月,部分设计和优化过程还使用了 OpenAI 自己的 AI 模型,VentureBeat 援引知情人士称使用了前代 OpenAI 模型。

角色公司负责内容
芯片架构设计OpenAILLM 推理优化方向、全栈架构设计
芯片实现 & 网络博通(Broadcom)硅片实现、Tomahawk 网络芯片、量产支持
晶圆代工台积电(TSMC)3nm 工艺制造
系统集成Celestica主板、机架、服务器系统集成、量产
首批部署客户微软 Azure数据中心部署(年底开始)
04

开发者六步 Runbook:推理经济学变化下如何调整技术栈

若 50% 推理成本节省在生产环境验证,ChatGPT API 定价、模型路由策略与本地/云端分工都将重塑。以下六步帮助开发团队在芯片军备竞赛中保持架构弹性。

01

跟踪官方技术报告:关注 OpenAI 数月后发布的完整基准,勿仅凭发布日 vendor benchmark 做容量规划。

02

将推理成本纳入架构评审:在 API 选型、模型路由、Prompt Caching 决策中预留 30%~50% 降本空间。

03

区分训练与推理负载:Jalapeño 仅覆盖推理;训练与微调仍依赖英伟达 GPU 生态,勿混淆采购预期。

04

评估本地 Agent 宿主稳定性:云端推理降价不等于边缘开发机可省;本地 Codex/Agent 调试仍需稳定 Apple Silicon 环境。

05

关注多供应商路由:OpenAI 表述芯片「为全行业 LLM 而建」,未来可能向外部开放,提前设计 provider fallback。

06

记录时间线里程碑:2026 年底 Azure 首批部署、2027 大规模量产、2028 第二代芯片、2029 年 10 GW 目标——按节点复查 SLA 与预算。

05

部署路线图、关键人物与行业深远影响

阶段时间里程碑
近期2026 年底首批商用部署至微软 Azure 及合作伙伴;优先服务 ChatGPT、Codex、API 内部推理
中期2027 年大规模量产;部署规模超 1.3 GW;可能向外部 AI 公司开放
长期至 2029 年自研芯片支撑 10 GW 算力(约 10 座核电站发电量级别);下一代芯片预计 2028 年推出,此后每年迭代

完整时间线:2025 年 10 月 OpenAI 与博通正式宣布合作;2026 年 2 月 英伟达向 OpenAI 直接投资 300 亿美元;2026 年 6 月 24 日 Jalapeño 公开发布;2026 年底 首批商用部署;2027 年 部署超 1.3 GW;2028 年 第二代芯片;2029 年 10 GW 目标。

A

推理成本节省约 50%:博通 CEO 早期实验室数据,量产验证待定(来源:Bloomberg / Reuters)。

B

9 个月设计到流片:声称高性能先进半导体领域最快 ASIC 开发周期;AI 辅助设计 + 软硬件协同是关键(来源:OpenAI 官方博客)。

C

10 GW 算力目标:OpenAI 至 2029 年自研芯片支撑规模,多代路线图已规划(来源:OpenAI / Broadcom 联合声明)。

OpenAI 官方博客定性:「OpenAI 不仅在开发前沿模型或在其上构建产品;它正在设计其下方的基础设施:芯片架构、内核、内存系统、网络、调度、部署系统和产品体验。」 这标志着 AI 公司竞争维度从「谁的模型更好」演变为「谁的全栈效率更高」。

半导体格局加速分化:赢家包括博通(定制 ASIC 设计合作)、台积电(先进制程代工)、SK 海力士/三星(HBM 内存供应);承压方包括英伟达(推理市场份额可能被逐步蚕食)、AMD(推理 ASIC 浪潮中存在感弱)。关键人物:Greg Brockman(联合创始人 & 总裁,公开宣布)、Richard Ho(硬件项目负责人)、陈福阳(博通 CEO,性能与成本声明)、Sam Altman(CEO,算力命脉战略推动者)。

注意:「50%」数字目前仍是 Broadcom 早期实验室数据。正式量产效果需等待 OpenAI 完整技术报告、微软等合作伙伴数据中心实际部署、第三方独立基准测试。

对多数开发者而言,自购 Mac 做本地 Agent 调试看似能省 API 费,但面临内存瓶颈、7×24 在线不稳定、多项目并发排队等隐性成本。云端推理降价也不等于边缘开发环境可省——Codex 联调、Xcode 构建与 Gateway 常驻仍需要独占 Apple Silicon。对于更稳定、更适合 iOS CI/CD 与 AI Agent 自动化的生产环境,MESHLAUNCH 的 Mac Mini 云端租赁通常是更优解:独占裸金属、六区节点、按天/周/月弹性下单。

常见问题

不是,至少现在不是。它只做 LLM 推理,不做训练。英伟达在训练阶段的地位短期内无法撼动,2026 年 2 月英伟达还以 300 亿美元直接投资 OpenAI。双方更多是互补关系,战略上是分散供应而非离婚。

这是博通 CEO 陈福阳接受彭博社采访时公布的早期实验室测试数据,尚未经过第三方独立验证。OpenAI 措辞更谨慎,称「每瓦性能显著优于当前最先进水平」但未给出具体数字。完整技术报告数月后才会发布。

若成本节省验证成功,ChatGPT / API 调用费用可能进一步下降,响应速度可能更快。长期来看 AI 服务将更便宜、更普及。「AI 价格战」底线将进一步拉低。本地开发环境成本结构不变,详见租赁价格页

OpenAI 和博通表述该芯片「为全行业当前和未来 LLM 而建」,暗示未来可能向外部公司开放。但目前首要任务是满足 OpenAI 自身推理需求,2027 年后大规模量产阶段才可能讨论外部可用性。

博通和 OpenAI 已规划多代路线图,下一代芯片预计 2028 年推出,此后每年迭代。未来可能扩展至训练芯片,但目前 Jalapeño 仅覆盖推理场景。

消息公布后英伟达股价反应有限。市场普遍认为英伟达在训练领域优势短期内不受威胁,但大客户自研芯片趋势构成结构性压力。英伟达 Vera Rubin 平台已与多家公司签署大规模部署协议作为应对。