当AI正在能替人类编程数个小时甚至数天,编程的速度就愈发关键;当多个智能体协作完成更加复杂的任务,延时就变得更加不能容忍。

在推出GPT-5.3-Codex之后一周,OpenAI即推出Codex-Spark。这个轻量版,可以实现即时编程,速度达到1000token/秒。这也是OpenAI首个运行在英伟达GPU竞争对手Cerebras芯片上的模型。

随着模型功能的日益强大,交互速度显然成为了瓶颈。这样的速度,对于长程工作、动辄耗费成上亿token的智能体来说,会带来产品的差异性竞争力。

以OpenAI为代表的美国前沿AI实验室,进一步抬高竞争门槛,用新一代更强的算力,训练更强大的模型,持续扩展性能边界,并创造出更好的用户体验。Blackwell大规模上市成为主流,TPU-7e即将量产推出,以及更快速的推理芯片如Groq、Cerebras等,正在加快部署。中国的开源AI军团,要快马加鞭了。

“响应速度即产品”

OpenAI开始用算力与模型协同,加入AI编程的残酷竞争。Codex-Spark运行在Cerebras的芯片上;双方宣布合作也仅仅一个月,即推出首个模型。Cerebras 的创始人兼CEO Andrew Feldman称,Codex-Spark 是为实时软件开发而打造的。“在编程领域,响应速度本身就是产品。这不是“锦上添花”,而是刚需。”

Codex-Spark针对定向代码修改、逻辑调整和前端迭代进行了优化,为开发者提供几乎即时的反馈,让他们保持在高效的心流状态中——这对于10X甚至100X的人才来说,具有极高的经济价值。

打开网易新闻 查看精彩图片

OpenAI提出了马年工作重心:提高数据中心容量,强化端到端用户体验,并部署更大的前沿模型。

如OpenAI所说,其最新的前沿模型在执行长时间运行的任务方面展现出优势,无需人工干预即可自主运行数小时、数天甚至数周。这样的话,低延时可以直接缩短任务完成的时间,转化为经济价值。

Codex-Spark 成为首个专为实时编程而设计的模型,提供128k的上下文窗口,并且仅支持文本。在研究预览期间,Codex-Spark 将拥有独立的速率限制,其使用量不计入标准速率限制。但是,当需求量较高时,用户可能会遇到访问受限或临时排队的情况,“因为我们需要平衡不同用户的可靠性。”

速度即智能

Codex-Spark 针对交互式工作进行了优化,在这种工作环境中,低延迟与智能同样重要。用户可以与模型实时协作,在模型运行过程中随时中断或重定向它,并快速迭代,获得近乎实时的响应。由于 Codex-Spark 注重速度,因此其默认工作方式非常轻量级:它只进行最少的、有针对性的编辑,并且除非用户口主动要求,否则不会自动运行测试。

Codex-Spark 运行在 Cerebras 的晶圆级引擎(Wafer Scale Engine)3上,这是一款专为高速推理而打造的 AI 加速器,为 Codex 提供了一个优先降低延迟的服务层。OpenAI与 Cerebras 合作,还将把这条低延迟路径添加到其他服务器相同的生产服务堆栈中,使其能够在 Codex 上无缝运行,并为支持未来的模型做好准备。

OpenAI特意说明,GPU 仍然是其训练和推理流程的基础,能够提供最具成本效益的token,适用于广泛的应用。Cerebras 则在此基础上更进一步,在对延迟要求极低的工作流程中表现更好,能够缩短端到端循环,使 Codex 在迭代过程中响应更加迅速。GPU 和 Cerebras 可以结合使用,针对单个工作负载实现最佳性能。

Codex 将拥有快慢结合的两种互补模式:一种是用于长期推理和执行的模式,另一种是用于快速迭代的实时协作模式。随着时间的推移,这两种模式将会融合,既让用户保持紧密的交互循环,又能将耗时较长的任务委托给后台运行的子代理;或者,当需要兼顾广度和速度时,它还可以将任务并行分配给多个模型,因此无需预先选择单一模式。

关于Cerebras

打开网易新闻 查看精彩图片

2015年创立,设计的处理器,实现了单晶圆级的计算、内存和互连架构。比H100快10-20倍,在Mistral, Perplexity等模型上使用,速度达到1000-1200token/秒。

为什么WSE架构在速度上碾压GPU? GPU将模型权重保存在 HBM 中,每生成一个 token,整个模型需要通过内存总线传输。受限于带宽瓶颈,无论计算能力,吞吐量都限制在 200-300 tps 左右。而Cerebras 的晶圆级引擎足够大,可以将整个模型存储在芯片上,无需外部内存,也无需总线。权重和计算都位于同一位置,能实现2500+ tps 的吞吐量。

打开网易新闻 查看精彩图片

目前大模型的推理已经成为瓶颈。训练展现了人工智能的显著突破,但推理的成本决定了其经济可行性,维护和使用前沿模型成本高昂,OpenAI每1美元收入需要3美元成本,急需建立推理的经济性,不仅需要token的数量,更需要token的质量,即所能创造的经济价值,而低延迟是目前在智能体长程任务中比较迫切的需求。

2026正是推理定制芯片战争爆发之年,TPU, Grok(LPU),Cerebras等。每家前沿AI实验室仍然需要GPU满足基本的训练推理需求,但是在延迟、总拥有成本(TCO)、功耗等方面的竞争,其差异化将主要通过ASIC定制推理芯片实现。英伟达花了200亿美元将推理芯片初创企业Groq的核心团队买下,也是为了把它的护城河拓得更宽、掘得更深。

Andrew Feldman说:当推理足够快时,全新的市场将随之打开。