OpenAI 与博通联合开发的 Jalapeño 定制 AI 推理 ASIC,面向超大规模 LLM 服务

OpenAI 首款自研 AI 芯片 Jalapeño:推理成本直降 50% 决策指南

2026 年 6 月 25 日更新:6 月 24 日,OpenAI 与博通(Broadcom)联合发布 Jalapeño——OpenAI 首款专为大语言模型(LLM)推理定制的 ASIC(专用集成电路)。博通 CEO 陈福阳(Hock Tan)向彭博社透露,早期实验室测试显示相比典型 AI GPU 约 50% 推理成本节省;OpenAI 官方博客则称每瓦性能显著优于当前最先进水平。芯片采用台积电 3nm 工艺,从初始设计到流片仅 9 个月,部分设计环节由 OpenAI 自有 AI 模型辅助完成,工程样品已在实验室运行 GPT-5.3-Codex-Spark微软 Azure 将于2026 年底率先商用部署,2027 年规模超 1.3 吉瓦(GW),2029 年目标 10 GW——与此同时,英伟达仍是训练核心伙伴,2026 年 2 月向 OpenAI 直接投资 300 亿美元。本文是一份独立中文决策指南:架构原理、竞品矩阵、关键引述、产业链、部署路线图、行业影响、开发者五步实操与 FAQ。

1. 为什么 Jalapeño 此刻就该进入你的技术雷达

芯片发布不是数据中心八卦——它直接改写你每一次 API 调用的单位经济学。Jalapeño 落地于 OpenAI 冲刺盈利、Anthropic 竞逐 IPO、超大规模云厂商向推理集群投入数千亿美元的同一季度。工程负责人本周就该处理的三个痛点:

  1. 推理账单才是新瓶颈。 训练占头条,但服务 ChatGPT、Codex 与 Agent 端点消耗 OpenAI 日常算力支出的大头。即便 50% 推理成本降幅只在部分流量上兑现,也足以改变 API 定价地板与你的年度模型预算假设。
  2. 单一 GPU 供应商依赖是战略风险。 OpenAI 训练仍买英伟达,但 Jalapeño 为最大持续型工作负载提供了第二来源。若你的生产栈只绑一家 GPU 后端、没有路由降级方案,你继承了集中度风险,却没有谈判筹码。
  3. 硅片量产前的基准测试制造规划迷雾。 厂商实验室数字比 Azure 部署、OpenAI 承诺的技术报告、第三方 MLPerf 类验证早数月。在这些门槛关闭前锁死多年合同,可能多付——或在更便宜推理服务到来时产能不足。

2. 6 月 24 日发布:核心事实一览

2026 年 6 月 24 日,OpenAI 与博通在旧金山与帕洛阿尔托联合宣布 Jalapeño。芯片被定位为 OpenAI 首款「Intelligence Processor」——专为大语言模型推理打造的加速器,不做通用 GPU 计算,也不覆盖模型训练。

属性 详情
产品名称 Jalapeño
芯片类型 定制 ASIC — 仅 LLM 推理
架构主导 OpenAI(围绕前沿模型路线图的从零设计)
硅片实现 博通(网络互联、量产支持)
晶圆代工 台积电(TSMC),3nm 工艺节点
系统集成 Celestica(主板、机架、服务器系统)
网络互联 博通 Tomahawk 交换芯片,支撑集群 scale-out
开发周期 设计到流片 9 个月;AI 辅助优化
成本声明 相比典型 AI GPU 约 50% 推理节省(陈福阳 / 早期实验室数据)
性能声明 每瓦性能显著优于 SOTA(OpenAI);与 Blackwell 同级(陈福阳对路透社)
实验室负载 GPT-5.3-Codex-Spark,目标频率与功耗下运行
首批部署 微软 Azure,2026 年底
规模目标 2027 年超 1.3 GW;2029 年 10 GW
训练芯片 未覆盖 — 英伟达仍是训练伙伴(2026 年 2 月 300 亿美元投资)

双方对外叙事将 Jalapeño 定位为多代算力平台的第一步,而非一次性实验。OpenAI 官方博客明确表示目标是「为全行业当前和未来 LLM 从零构建」的基础设施,在满足内部产能后,对外部客户开放留有空间。

3. Jalapeño 是什么:ASIC 架构与设计原则

用一个类比理解差异:英伟达 GPU 是瑞士军刀,Jalapeño 是专为大语言模型推理定制的手术刀。 ASIC(Application-Specific Integrated Circuit,专用集成电路)用灵活性换效率——它只做一件事:在超大规模下运行 Transformer 推理。不玩游戏,不跑训练,不做通用计算。

3.1 三大架构赌注

  • 从零设计(Blank-slate Design): 不是在老架构上打补丁,而是以现代 LLM 推理为出发点重新设计。每一个设计决策都围绕 Transformer 运算模式,而非先考虑通用性再在软件层适配 AI。
  • 最小化数据搬运(Minimize Data Movement): LLM 推理瓶颈往往在内存带宽——权重与激活在内存与计算单元间反复搬运消耗大量能量与时间。Jalapeño 的芯片布局专门削减无效搬运,让数据更靠近计算发生的位置。
  • 计算 / 内存 / 网络均衡设计: 传统 GPU 常在 HBM 带宽墙前让计算单元空转。OpenAI 称该设计针对生产推理负载把实际利用率推向更接近理论峰值——而非仅靠合成微基准测试。
  • 集群级网络内建: 博通 Tomahawk 交换芯片以超大规模数据中心已有标准连接数千加速器,单模型跨多节点协同时至关重要。

3.2 Richard Ho 完整引述

OpenAI 硬件项目负责人 Richard Ho 在发布材料中表示:

"Jalapeño 从零开始,专为 LLM 推理设计,融入了我们对前沿模型在内核执行、内存移动、网络通信和服务模式方面的深刻洞察。早期测试证明,它能在接近硬件理论极限的状态下高效运行我们最重要的工作负载。"

英文原文为:*"Jalapeño was designed from the ground up for LLM inference using detailed insights from our close collaboration with OpenAI researchers. We optimized the architecture around the kernels, memory movement, networking, and serving patterns that matter most for frontier AI models. Early testing shows it can run our most important workloads efficiently, close to the hardware's theoretical limits."* 这段话确认了与模型团队的协同设计,而非通用 ASIC 模板事后套软件。

3.3 制造与集成栈

台积电 3nm 节点让 Jalapeño 与苹果 M 系列、英伟达 Blackwell 处于同一代量产制程。Celestica 负责板卡与机架级集成——决定芯片架构能否按吉瓦级规模准时出货的「幕后工程」。

3.4 实验室已在跑的模型

工程样品目前已在 OpenAI 实验室以目标频率和功耗运行 ML 工作负载,包括面向编程场景的旗舰推理模型 GPT-5.3-Codex-Spark

4. 性能与成本:关键数据

注意: 以下数据来自博通 CEO 陈福阳及 OpenAI 官方声明,均为早期测试结果,完整技术报告将于数月后发布。需以「官方自测数字」看待,独立第三方验证尚未完成。

指标 Jalapeño(早期测试) 对比基准 / 来源
推理成本节省 约 50% 陈福阳,彭博社采访 — 相比典型 AI GPU
每瓦性能 显著优于当前最先进水平 OpenAI 官方博客(未公布具体倍数)
性能绝对值 与英伟达 Blackwell、谷歌 TPU 相当 陈福阳接受路透社采访
热耗散表现 优于预期 OpenAI 内部测试
利用率 vs 峰值 更接近理论最大值 OpenAI 架构博客 — 减少数据搬运

陈福阳(博通 CEO),彭博社采访原话:

"到目前为止,Jalapeño 相比典型 AI GPU 展现出约 50% 的成本节省。"

Greg Brockman(OpenAI 联合创始人 & 总裁) 强调速度:Jalapeño 从初始设计到制造流片仅 9 个月,部分设计和优化过程还使用了 OpenAI 自己的 AI 模型。VentureBeat 援引知情人士称使用了前代 OpenAI 模型,公司未公开具体 checkpoint。

陈福阳精确的 50% 与 OpenAI 谨慎表述的「显著优于」之间的落差,正是值得盯的信号。厂商发布基准需保持审慎,直到:OpenAI 发布承诺的技术报告、微软等伙伴规模部署、独立第三方基准落地。即便如此,在 OpenAI 查询量级上,即便只有宣称节省的一半,也会撬动数十亿美元级年度运营支出。

5. 9 个月流片:史上最快 ASIC 开发周期?

OpenAI 与博通声称 Jalapeño 代表高性能先进半导体领域有史以来最快的 ASIC 开发周期——从初始设计到流片(Tape-out)仅 9 个月。作为参照,双方合作本身直到 2025 年 10 月才公开宣布。

压缩周期的三个因素:

  1. 软硬件深度协同开发: 懂 kernel fusion、KV-cache 行为与 batching 模式的模型研究员,从第一天起与硅片架构师同席,消除传统 ASIC 开发中「硬件工程师猜软件需求」的大量返工。
  2. AI 辅助芯片设计: OpenAI 自有模型加速部分设计与优化流程。具体哪一代模型未公开,但「用 AI 设计 AI 芯片」本身已是竞争武器。
  3. 博通成熟 IP 库: 为 Google、Meta 等定制 ASIC 数十年积累的物理实现、Tomahawk 网络与芯片点亮模块,缩短从 RTL 到流片的路径。

速度即护城河:能按年迭代硅片的超大规模厂商,可以让芯片代际与模型代际对齐,而非在架构剧变下等两三年。

6. 产业链与合作伙伴

角色 公司 负责内容
芯片架构设计 OpenAI LLM 推理优化方向、内核、服务模式、多代路线图
芯片实现 & 网络 博通(Broadcom) 硅片实现、Tomahawk 网络芯片、量产支持
晶圆代工 台积电(TSMC) 3nm 工艺制造
系统集成 Celestica 主板、机架、服务器系统集成、规模化量产
首批部署客户 微软 Azure 2026 年底起数据中心部署

SK 海力士与三星同样处于价值链中——这一档 AI 加速器均依赖 HBM(高带宽内存)堆栈,陈福阳在 Broadcom 定制项目语境中曾提及两家供应商。

7. 部署路线图:Azure 到 10 GW

工程样品已在 OpenAI 实验室运行 ML 工作负载,包括 GPT-5.3-Codex-Spark。商用 rollout 分阶段推进:

阶段 时间 里程碑
实验室验证 2026 年 6 月(当前) 工程样品运行 Codex-Spark 与核心 serving 栈
首批商用 2026 年底 微软 Azure 及其他数据中心合作伙伴上线
规模量产 2027 年 大规模量产;部署规模超此前预测的 1.3 GW(陈福阳)
下一代硅片 约 2028 年(规划) 第二代 Jalapeño 平台;此后逐年迭代
基础设施目标 至 2029 年 自研芯片支撑 10 GW 算力(约 10 座核电站发电量级别)

10 GW 是惊人的数字——能否兑现,取决于电力采购与数据中心建设速度与硅片良率同样重要。2027 年前可能向外部 AI 公司开放(官方称芯片「为全行业 LLM 而建」);训练芯片扩展仍是更长期选项。

8. 大厂自研芯片竞品矩阵

OpenAI 入局最晚,但步子最快。每家平台公司都在建推理 ASIC 以逃离纯 GPU 经济学:

公司 自研芯片 主要用途 备注
Google TPU(v5/v6 等代际) 训练 + 推理 运行最久的大厂 ASIC 项目;博通合作伙伴
Amazon Trainium(训练)/ Inferentia(推理) 训练 / 推理分工 AWS 优先;Inferentia 面向成本敏感 serving
Microsoft Maia 100 推理 同时是 Jalapeño 部署的云房东
Meta MTIA 推理 博通实现合作伙伴
OpenAI Jalapeño(2026) 仅推理 9 个月流片;GPT-5.3-Codex-Spark 已在实验室

这些项目的目标都不是一夜清零英伟达,而是用 20%–40% 更便宜硅片覆盖部分负载,再以可信替代方案谈判其余采购。Quilter Cheviot 全球科技研究主管 Ben Barringer 在 CNN 报道中的概括切中要害:

"Nobody wants to be beholden to Nvidia."(没人想被英伟达绑死。)

战略含义是分散供应、谈判筹码——不是「抛弃英伟达」,而是「不再完全依赖英伟达」。

9. 英伟达:伙伴、投资者与训练锁定

Jalapeño 短期内不能替代英伟达。三道约束把绿厂钉在训练侧:

  1. 工作负载范围: Jalapeño 仅覆盖推理。前沿模型预训练与大规模微调仍跑在 H100、H200、Blackwell 集群,CUDA 优化栈占主导。
  2. CUDA 软件生态: 十余年构建的 CUDA、cuDNN、NCCL 与数百万开发者——最难跨越的护城河,单次 ASIC 发布无法抹平。
  3. 资本绑定: 2026 年 2 月英伟达向 OpenAI 直接投资 300 亿美元(含更大一轮 1100 亿美元融资中的 Vera Rubin 算力协议)。竞争对手与合作伙伴如今共享股权结构。
  4. ASIC 灵活性局限: 高度专一带来高效率;若 LLM 架构发生根本性改变(如不再是 Transformer),专用芯片适配成本很高。

理性读法是多元化,而非切割(diversification, not divorce)。即便 Jalapeño 最终只覆盖 OpenAI 推理舰队的四分之一,按当前 GPU 租赁费率也年省九位数美元——每一美元节省都是英伟达下一采购周期必须竞争的部分。

英伟达的反制包括 Vera Rubin 平台(下一代旗舰 GPU 系统,已与多家公司签大规模部署协议)、加深 CUDA 生态锁定,以及持有自建 rival 硅片客户的股权。推理份额侵蚀是多年故事;训练份额仍是堡垒。

10. 博通:Big Tech 定制 ASIC 的「代工皇」

短期最大赢家或许是博通,而非 OpenAI。博通同时为 Google(TPU v5/v6)、Meta(MTIA)与 OpenAI(Jalapeño)实现定制 AI 加速器——没有其他通用 ASIC 厂商能匹敌这种集中度。

资本市场已投票:2026 年前 5 个月博通股价年涨幅约 18%;自 2022 年底以来累计涨幅接近 7 倍,由 AI 定制硅片收入与网络配套驱动。陈福阳关于 Jalapeño 50% 成本与 Blackwell 同级的公开声明,直接支撑这一叙事。

对开发者而言,博通崛起意味着更多超大规模优化硅片进入市场——「标准 AI 硬件」愈发碎片化。预期厂商专属端点、区域产能倾斜,以及出于毛利原因优先自研芯片的路由策略。

11. 行业影响:推理经济学与全栈 AI

11.1 推理经济学重塑定价权

若 50% 节省在生产流量中哪怕兑现一部分,三根杠杆会动:

  • API 标价面临下行压力——OpenAI 在 Jalapeño 路由上内化更低边际成本。
  • 盈利时间线缩短——推理运营支出一直是 OpenAI 走向正自由现金流的主要拖累。
  • 行业价格地板在编程助手、embedding、批量推理等竞争赛道进一步下探,倒逼小实验室跟进或退出。

11.2 全栈 AI 成为竞争默认项

OpenAI 官方博客值得全文引述:

"OpenAI 不仅在开发前沿模型或在其上构建产品;它正在设计其下方的基础设施:芯片架构、内核、内存系统、网络、调度、部署系统和产品体验。因为 OpenAI 运营全栈,每一层都可以围绕同一目标优化:让模型对用户更快、更可靠、更实惠。"

英文原文:*"OpenAI is not only developing frontier models or building products on top of them; it is designing the infrastructure underneath them: chip architecture, kernels, memory systems, networking, scheduling, deployment systems, and product experience. Because OpenAI operates across the stack, each layer can be optimized around the same goal: making its models faster, more reliable, and more affordable for users."*

模型排行榜本身不再定义护城河。端到端每查询瓦数、负载下 P95 延迟与数据中心利用率,叠加成结构性毛利优势——Google 用 TPU 跑了十年的剧本,现在以创业公司的速度 + AI 设计硅片重演。

11.3 半导体赢家与承压方

类别 代表 逻辑
赢家 博通、台积电、SK 海力士、三星 定制 ASIC 设计订单、3nm 晶圆需求、加速器 HBM 供应
承压方 英伟达(推理份额)、AMD(定制 ASIC 故事弱) 超大规模自研芯片蚕食推理 GPU 出货量;训练护城河近期仍稳固
中性 / 待定 Celestica、Microsoft Azure 集成与托管收入随部署放大;若产能爬坡延迟则资本支出风险

12. 关键人物

姓名 职位 在此事件中的角色
Greg Brockman OpenAI 联合创始人 & 总裁 公开发布声音;定性为「全栈基础设施战略」,强调 9 个月时间线与 AI 辅助设计
Richard Ho OpenAI 硬件项目负责人 技术架构领导者;阐述内核、内存、网络协同设计
Hock Tan(陈福阳) 博通 CEO 彭博社称约 50% 成本节省;路透社称性能媲美 Blackwell
Sam Altman OpenAI CEO 整体战略推动者;长期公开表示希望 OpenAI 掌控算力命脉

13. 时间线梳理

时间 事件
2025 年 10 月 OpenAI 与博通正式宣布合作开发定制芯片
2026 年 2 月 英伟达向 OpenAI 直接投资 300 亿美元(含 Vera Rubin 算力协议)
2026 年 6 月 24 日 Jalapeño 芯片公开发布,工程样品在实验室运行
2026 年底 首批商用部署(微软 Azure 及其他合作伙伴数据中心)
2027 年 大规模量产,部署规模超 1.3 GW
约 2028 年 第二代 Jalapeño 芯片发布(预计)
2029 年(目标) 自研芯片支撑 10 GW 算力规模

14. 开发者五步实操清单

  1. 在成本模型中区分训练与推理。 梳理哪些工作负载固定在英伟达训练集群,哪些走弹性 API 推理。Jalapeño 只影响推理服务账单,直到 OpenAI 出货训练 ASIC。
  2. 按「单次成功请求」美元成本做基准,而非只看 token。 测量完整 Codex 任务、Agent 运行与工具调用链的 P95 延迟。硅片级节省经应用重试与编排开销后往往会缩水。
  3. 在 2026 年 Q4 前搭建多供应商路由。 部署 LiteLLM、OpenRouter 或内部网关,在 OpenAI、Anthropic 与开源权重托管间设置降级方案。历史上定制硅片量产往往伴随定价与配额调整。
  4. 盯部署里程碑,而非发布会 PPT。 长期合同是否续签,应绑定 Azure Jalapeño 生产流量、OpenAI 技术报告与独立基准——不是首日新闻稿。
  5. 保留 7×24 Apple Silicon 开发节点做 Codex 与 API 浸泡测试。 Agent 编码循环需要常在线 macOS + SFTP 同步评测脚本。笔记本合盖休眠会打断针对 GPT-5.3-Codex-Spark 及后续端点的夜间回归。

15. FAQ

Q1:Jalapeño 是英伟达 GPU 的替代品吗?
A:不是,至少现在不是。它只做 LLM 推理,不做训练。英伟达在训练阶段的地位短期内无法撼动,双方更多是互补关系。2026 年 2 月 300 亿美元投资进一步印证这一判断。

Q2:50% 的成本节省是真实数据吗?
A:这是博通 CEO 接受彭博社采访时公布的早期实验室测试数据,尚未经过第三方独立验证。OpenAI 用更谨慎表述,完整技术报告数月后发布。需谨慎看待。

Q3:普通用户会感受到什么变化?
A:若成本节省验证成功,ChatGPT / API 调用费用可能进一步降低,响应速度可能更快。长期来看 AI 服务更便宜、更普及;近期多数用户需等 2026 年底部署。

Q4:为什么叫「Jalapeño」(墨西哥辣椒)?
A:官方未作说明。OpenAI 内部有以食物命名项目的传统;「辣椒」可能暗示「辛辣」性能或对市场格局的刺激效果。

Q5:Jalapeño 会向其他 AI 公司开放吗?
A:官方表述为「为全行业当前和未来 LLM 而建」,暗示未来可能开放。目前首要任务是满足 OpenAI 自身需求。

Q6:下一代 Jalapeño 什么时候发布?
A:已规划多代路线图,下一代预计 2028 年推出,之后逐年迭代。

Q7:这对英伟达股价有影响吗?
A:消息公布后英伟达股价反应有限。市场认为训练优势短期仍稳固,但大客户自研芯片构成推理份额的结构性压力。

16. 总结与 SFTPMAC 远程 Mac 桥接

2026 年 6 月 24 日,OpenAI 不再只是模型公司——至少在推理侧,它也成了硅片公司。Jalapeño 明天不会推翻英伟达,它也不需要。即便只在 ChatGPT 部分流量上兑现 50% 推理成本降幅,也会改写行业经济学;9 个月流片证明 AI 辅助芯片设计已不是科幻。

对开发者,理性响应不是恐慌性囤 GPU 或取消 OpenAI 合同,而是在 Azure 部署弥合「实验室声明 vs 生产账单」落差之前,更新依赖图、路由架构与成本基准。

读决策指南不会帮你在凌晨 3 点跑 Codex 回归套件。本地 MacBook 通不过 7×24 常在线测试:合盖休眠、SSH 断连、无法在原生 macOS 上跑通宵 Agent 评测。当 GPT-5.3-Codex-Spark 端点迁移到 Jalapeño 路由、API 行为变化时,你需要一台不会睡的主机。

链路很清晰:AI 芯片发布 → 开发者评估 Codex/API 推理栈 → 需要 7×24 常在线 Mac 跑浸泡测试与回归。 SFTPMAC 远程 Mac 租赁为 AI 开发者提供常在线 Apple Silicon 节点:原生 macOS 跑 Cursor 与 Codex 工作流,SFTP/rsync 同步 prompt 与评测脚本,隔离 API Key 的硬件不会因笔记本合盖而休眠。用上面五步清单规划供应商策略;用专用远程 Mac 跑芯片发布会替代不了的 7×24 Codex 与 API 浸泡测试。