前不久,OpenAI正式官宣了首款自研芯片Jalapeño。

这名字取自一种墨西哥辣椒,硅谷给内部项目起名一向随性,倒也符合一贯的路数。

操刀这个项目的负责人叫Richard Ho,是OpenAI的硬件主管。

此人此前在谷歌待了将近九年,是Cloud TPU项目的核心工程师,主导过多代TPU从概念走向量产。

打开网易新闻 查看精彩图片

更早之前还联合创办过EDA公司,担任过光计算芯片公司Lightmatter的高级副总裁。

履历横跨芯片设计、AI加速和光互联三个领域,几乎是为“设计下一代AI推理芯片”量身定制的背景。

打开网易新闻 查看精彩图片

但无论如何,这颗芯片对整个AI和半导体行业来说,都算得上一个特殊的产物。

打开网易新闻 查看精彩图片

这颗芯片从开始设计到流片,只用了九个月。

传统芯片公司同等规模的项目通常需要两到三年,谷歌第一代TPU从架构到流片大约花了三年。

OpenAI在公告里直言,这应该是高性能半导体领域有史以来最快的ASIC开发周期。

打开网易新闻 查看精彩图片

之所以这么快,除了Richard Ho团队的经验,还有一个关键因素——OpenAI自己的大模型深度参与了芯片的设计过程。

据称开发团队开辟了数百个AI代理,通宵运行复杂任务,人类工程师主要负责设定目标、审查结果和做出高层决策。

打开网易新闻 查看精彩图片

OpenAI总裁Brockman透露,模型在加速设计优化方面的表现“令团队自己都感到惊讶”。

说白了,AI正在帮人类设计运行AI自己的硬件。

当然,效率这么高也跟钱有关。

打开网易新闻 查看精彩图片

Richard Ho是带资进场的——OpenAI为这个项目投入的资源,不是一般创业公司能比的。

打开网易新闻 查看精彩图片

Jalapeño是一颗推理芯片,不是用来做训练的。

它采用的是专用集成电路(ASIC)方案,专为大语言模型的推理场景量身打造。

这颗芯片的核心设计哲学,其实跟谷歌TPU的思路一脉相承——脉动阵列。

打开网易新闻 查看精彩图片

大模型90%的计算都落在矩阵乘法上,脉动阵列解决的就是这个问题。

具体怎么干活?先把权重存到整个计算网格上,保持不动,输入数据像流水一样挨个穿过所有的计算单元,每个单元算完把结果传给下一个,最终得出答案。

打开网易新闻 查看精彩图片

整个过程像波浪一样持续向前推进,几乎不需要频繁访问内存。

打开网易新闻 查看精彩图片

这么做最大的好处,就是大幅度减少了数据搬运的开销。

对推理芯片来说,数据搬运目前是最耗能也是最耗时的瓶颈。

能少搬一次数据,就省下一份电、抢回一毫秒。

有人可能会问:脉动阵列又不是什么新鲜东西,谷歌TPU都成熟了,OpenAI直接照搬不就行了?

打开网易新闻 查看精彩图片

事情没那么简单。

设计哲学可以借鉴,但具体的电路实现得自己从头做IP。

更重要的是,Jalapeño不是拿现成的AI芯片改一改凑出来的——它是OpenAI结合自家ChatGPT、Codex、API以及未来Agent产品的真实运行负载,从零开始定制的推理芯片。

打开网易新闻 查看精彩图片

用官方的话说,这是一次“原生设计”。

合作分工上,OpenAI负责架构设计,博通负责芯片的物理实现和网络互联,台积电用3纳米制程代工制造,加拿大电子制造商Celestica提供板卡、机柜和整机系统方案。

博通CEO陈福阳对路透社说,这颗芯片的性能可以跟英伟达Blackwell和谷歌TPU掰手腕。

打开网易新闻 查看精彩图片

目前工程样片已经在实验室里跑通了GPT-5.3-Codex-Spark这样的模型,频率和功耗全部达标。

打开网易新闻 查看精彩图片

按照规划,Jalapeño将在2026年底部署到微软及其他合作伙伴的数据中心。

芯片和服务器系统都不会对外销售,仅供OpenAI内部使用。

有消息说推理成本预计能降低大约50%。

打开网易新闻 查看精彩图片

OpenAI总裁Brockman说了一句话——“世界正迈向以计算为核心的经济时代”。

当算力成为核心生产资料,没有哪家AI公司愿意把命脉完全交给英伟达

谷歌、亚马逊、微软、Meta已经先后走上了自研芯片这条路。

OpenAI现在是其中最新的一员。

这颗Jalapeño到底辣不辣,年底部署之后就能见分晓了。