刚刚,OpenAI 正式进军 AI 芯片领域。
北京时间 6 月 24 日晚间,OpenAI 发布了旗下第一颗自研芯片,代号“Jalapeño”(西班牙语里的“墨西哥辣椒”)。这颗芯片由 OpenAI 自主设计架构,博通(Broadcom)负责硅片实现与网络互联,台积电(TSMC)代工制造,采用 3 纳米先进制程。
当天,博通 CEO Hock Tan 和总裁 Charlie Kawwas 将首批工程样片交到了 OpenAI CEO Sam Altman 和总裁 Greg Brockman 手中。
在公告中,OpenAI 把这颗芯片称为“Intelligence Processor”——智能处理器,而不是业内更常见的“AI 加速器”。这个命名或许暗示了 OpenAI 对其的产品定位:它并非通用芯片,而是一颗围绕大语言模型(LLM)推理场景设计的处理器。
九个月,AI 开始参与设计自己的硬件
本次官宣中,最引人注目的应该是这枚芯片的研发速度。
据 Brockman 在接受 CNBC 采访时透露,Jalapeño 从最初的架构设计到完成制造流片(tape-out,即将芯片版图数据提交至晶圆厂),全程仅耗时约九个月。这个速度在高性能半导体行业相当罕见。
作为对比,Google 第一代 TPU(Tensor Processing Unit,张量处理单元)从架构到流片大约花了三年,传统芯片公司的同等规模项目通常需要五到七年。OpenAI 在公告中直言,“我们相信这是高性能先进半导体领域有史以来最快的 ASIC 开发周期。”
如此快的开发速度背后有两个关键因素。
一是 OpenAI 自身的 AI 模型深度参与了芯片设计流程。Brockman 表示,模型在加速设计优化方面的表现“令团队自己都感到惊讶”。换句话说,AI 正在帮助设计运行自己的硬件。
二是团队经验。OpenAI 硬件负责人 Richard Ho 此前在 Google 工作近九年,是 Cloud TPU 项目的核心工程师,曾主导多代 TPU 从概念走向量产。他在 2023 年底加入 OpenAI 后迅速组建团队。据此前路透社报道,OpenAI 芯片团队规模已扩展到约 40 人。
Jalapeño 是一颗 ASIC(Application-Specific Integrated Circuit,专用集成电路),主要面向 AI 推理,也就是当用户向 ChatGPT 提问、让 Codex 执行编码任务时,后台真正处理请求的环节。随着 ChatGPT 日活用户突破数亿、Codex 等智能体产品上线,推理侧的算力消耗和成本压力正在快速攀升。
据此前多家媒体引述的技术细节,Jalapeño 采用脉动阵列(systolic array)架构,并搭配高带宽内存(HBM)。OpenAI 在数据搬运路径、计算与存储配比上做了专门优化。官方表述是,芯片“减少了数据搬运,使实际利用率远远逼近理论峰值性能”。简单来说,就是让每一分算力都尽可能被模型真正用上。
Richard Ho 在此前斯坦福大学的一次闭门分享中,曾用一句话概括这颗芯片的设计哲学:“你必须为模型将要去的方向设计硬件,而不是为模型今天所在的位置。”在他看来,这不是单纯的芯片工程,而是一个系统工程,涵盖硅片、机架、网络、供电、散热和数据中心的完整链条。
关于性能,OpenAI 的说法相对谨慎:早期测试显示,Jalapeño 每瓦性能将“大幅优于当前最先进水平”,具体技术报告将在未来数月发布。
但 Hock Tan 在接受路透社采访时就比较直接。他表示,Jalapeño 的性能已经与英伟达 Blackwell 系列和 Google TPU 处于同一水平。另据 Blockonomi 报道,Hock Tan 提到,初步样品的推理成本相比传统 AI GPU 降低了约 50%。不过该数据尚未获得 OpenAI 方面独立确认。
目前可以确认的是,工程样品已经在实验室以目标频率和功耗成功运行 ML 工作负载,包括 GPT-5.3-Codex-Spark 模型。
OpenAI 的全栈野心
那么问题来了,OpenAI 为什么要自己做芯片?
最直接的原因,或许是降低对英伟达的过度依赖。Brockman 在 CNBC 采访中坦言,OpenAI“永远无法足够快地获取算力”。Hock Tan也表示,博通客户的算力需求“简直是无底洞”,这种需求紧张状态可能会一直延续到 2028 年。
但 OpenAI 不想止步于此,它还想拥有对技术的全栈控制。
OpenAI 在公告中写道,公司正在设计模型底下的基础设施:芯片架构、内核、内存系统、网络、调度和部署系统,每一层都围绕同一个目标优化。这个思路与 Google 做 TPU、苹果做 M 芯片的逻辑一脉相承。区别在于,OpenAI 起步最晚,但试图用更快的速度补上这块短板。
部署时间表上,OpenAI 计划在 2026 年底前启动初步部署。Hock Tan对 CNBC 表示,年底会进行“小规模原型部署”,2027 年开始放量,2028 年上半年全速运转。配套服务器将由天弘科技(Celestica)生产,芯片和服务器均不对外销售,仅供 OpenAI 内部使用,最终部署在微软等合作伙伴的数据中心内。
Hock Tan此前预估的芯片部署总功耗为 10 吉瓦(GW)。而在周三的发布活动上,他表示,2027 年 1.3 吉瓦的部署量预测“可能过于保守”,因为实际需求远超预期。下一代芯片预计将在 2028 年推出,此后计划按年迭代。
当然,需要了解的是,当前的 AI 芯片赛道已经相当拥挤。
Google 的 TPU 已经迭代到第六代,是目前最成熟的非英伟达 AI 加速方案;亚马逊的 Trainium 芯片已投入商用,OpenAI 今年早些时候也与 AWS 签署协议使用 Trainium;微软在 2023 年底发布了自研 AI 芯片 Maia;Meta 也在开发 MTIA 芯片。AI 芯片初创公司 Cerebras 今年 5 月完成 IPO 上市,OpenAI 还与其签署了三年期算力采购协议。
换句话说,自研芯片并不意味着 OpenAI 会放弃外部算力来源。更准确地说,它是在把算力来源变得更多元,同时尽量把最核心的推理成本和基础设施控制权握在自己手里。
不过,自研芯片从来不是容易的事。微软和 Meta 都在这条路上摸索多年,进展都不太顺利。一颗大规模 AI 芯片的全流程成本可达数亿美元。如果算上配套软件栈和外围系统,成本还会继续上升。
而且,OpenAI 的芯片团队规模也仍远小于 Google 和亚马逊的同类团队。后续能否持续扩充人才、迭代架构,是决定这条路能走多远的关键变量。此外,定制 ASIC 在灵活性上天然不及通用 GPU。Jalapeño 针对推理场景做了深度优化,但面对快速演进的模型架构,它的适应性仍有待大规模验证。
1.https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
2.https://www.theverge.com/ai-artificial-intelligence/955939/openai-reveals-its-first-ai-processor-jalapeno?
3.https://x.com/OpenAI/status/2069770172802773292
热门跟贴