公众号记得加星标⭐️,第一时间看推送不会错过。

打开网易新闻 查看精彩图片

如今世界对人工智能的热情如此高涨,以至于软件公司都在投资核能,以满足我们对生成文本、图像和视频的需求。但如果他们根本不需要这样做呢?如果我们能够鱼与熊掌兼得,既拥有人工智能带来的便利,又能以更高的效率(提高90%)完成更多工作,同时大幅降低能源消耗,那该多好?

这就是微软支持的芯片初创公司d-Matrix的理念。其核心思想是:制造能够提供更快、更便宜、更高效的推理的芯片,而这正是人工智能公司在回答用户AI查询时所做的。如果d-Matrix的观点正确,人工智能的未来可能不再取决于谁训练的模型规模最大,而取决于谁能以最快、最便宜的方式回答问题。

“训练关乎表现,推理关乎效率,”首席执行官 Sid Sheth 最近在卡塔尔网络峰会上与我交谈时说道。

这种区别是d-Matrix(他领导的位于硅谷的初创公司)的基石。训练如今的大型语言模型是一项极其繁重的工作,最好使用英伟达的高端GPU、谷歌的TPU或其他少数几种芯片来完成。但谢思表示,GPU并非运行AI模型回答问题的理想选择。然而,这正是业界目前使用的技术……主要是因为业界只能使用GPU。

这就像用锤子和钉子打扫房子一样,因为房子就是用这些东西盖的。

他说:“问题的关键在于你使用的是训练芯片。然后你说,‘哦,你知道吗?我要在这些芯片上运行推理,对吧?’但这并不是最好的方法。”

d-Matrix 的创立基于这样的信念:推理最终将主导人工智能工作负载。该公司没有对训练硬件进行改造,而是从零开始构建了新的架构。Sheth 指出,为推理而设计的芯片和为训练而设计的芯片之间存在着核心的架构差异。训练是一个计算问题,但推理不仅仅是一个计算问题,他说道。更确切地说,推理是一个计算和内存问题。

而且,内存部分还会增加延迟。

在大型语言模型中,初始的“处理”阶段通常被称为预填充。模型会接收提示信息,构建上下文并将相关参数加载到内存中。之后,它才会开始生成词元(即“解码”阶段),从而提供用户想要的答案。这种区别至关重要,因为推理性能不仅受限于原始计算能力,还受限于数据在内存和处理单元之间移动的速度。如果计算速度快但内存访问速度慢,词元处理就会停滞。如果内存访问速度快但计算速度跟不上,吞吐量就会下降。无论哪种情况,用户都会感受到延迟。

“这就好比我问你一个抽象的问题,”谢思解释说,“你不会立刻脱口而出,对吧?你会先思考。然后两三秒钟后,你可能才会开始说话。说话的过程就是解码。”

本质上,当今的大部分基础设施都针对训练工作负载进行了优化,这些工作负载优先考虑峰值性能而非平均响应速度。然而,在推理过程中,尤其是在使用包含多个问答的交互式人工智能时,延迟就成为了决定性指标。

“一旦你开始回应,我希望你以一定的速度回应,否则我可能不会听,”他补充道。

实际上,这意味着要尽可能缩短从内存中检索模型权重和激活值并将其输入到计算单元所需的时间,以便处理生成的每个词元。传统的GPU架构将计算和高带宽内存分离为独立的子系统,这可能会降低内存密集型推理工作负载的效率。

d-Matrix 的解决方案是在其架构中将计算和内存紧密融合。通过将内存物理位置更靠近计算位置,并专门针对推理模式优化数据流,该公司旨在降低令牌延迟并提高每瓦每秒令牌数。此外,该公司没有构建单个庞大的单芯片处理器,而是将硅片切割成更小的模块化构建块,称为芯片组 (chiplet)。然后,根据工作负载需求,将这些芯片组以不同的数量组合起来。

从概念上讲,它更接近苹果的统一内存设计,而不是传统的 GPU 架构:减少计算和内存之间的距离,并围绕效率而不是峰值基准性能进行优化。

d-Matrix并没有在针对训练优化的芯片上进行蛮力推理,而是基于推理将占据主导地位的假设来设计芯片。Sheth声称,其结果是更低的延迟和显著更高的每瓦浮点运算次数,尤其是在实时交互式工作负载方面。

这意味着成本优势。

Sheth表示,目前d-Matrix在运行推理操作时,成本比GPU降低了约90%。而且未来还有更多优势。

“这就是今天的情况,”他说。“以后只会越来越好。”

或许来得正是时候,甚至可能有点晚。OpenAI现在正使用 Cerebras 的巨型芯片(芯片大小)来运行其 GPT-5.3-Codex-Spark 编码模型的推理,与其他架构相比,速度提升了 15 到 20 倍。Cerebras 的方法与 d-Matrix 完全不同,但目标相似。

d-Matrix今天开始出货芯片,但数量很少,只有几百颗左右。Sheth表示,很快产量就会达到数千颗。他很快就需要达到数百万颗的产量,并有望在今年实现。

“今年你就会看到它大规模量产了,”他告诉我。

都想把英伟达拉下马

目前 ,英伟达 是AI芯片行业无可争议的冠军,其图形处理单元主导着人工智能模型的训练和运行市场——公司市值达到4.5万亿美元。

但创始人和投资者对替代方案的兴趣越来越大。客户会跟随吗?其中一些已经存在,尽管以实验形式存在,是对抗英伟达主导地位的对冲,或者仅仅是在这个异常紧张的市场中获得更多芯片的途径。

交易公司Jump的首席技术官Alex Davies表示:“几乎所有人都在Nvidia上做一些事情——无论是训练还是推理——我们看到行业正在变化,而这还不是常态,Jump 本月向AI芯片初创公司Positron 进行了2.3亿美元的融资,同时也是Positron的客户。“我们不认为会有一个赢家。”

尤其是,初创企业和投资者看到了推理领域中的一个空缺,即在AI模型训练完成后运行它们——比如让ChatGPT给出答案。英伟达首席执行官黄仁勋本人也证实了其他公司可能在该领域有所贡献的可能性,比如圣诞老人在圣诞夜(请考虑一下我们这些已经在度假的人),据报道将获得200亿美元的赔偿金,用于授权推理硬件初创公司Groq的技术,并聘用该公司大部分芯片团队成员, 其中包括首席执行官乔纳森·罗斯。

Groq收购案;Cerebras签署的100亿美元为OpenAI提供快速推理芯片的交易;以及Anthropic签署多款非英伟达芯片协议的举措,被视为更多半导体制造商市场机遇的例子。自Groq交易以来,多家初创公司表示,潜在投资者的兴趣不断上升,而老竞争对手SambaNova则结束了谈判,以远低于上轮融资的估值出售,转而注入新的资金。

“围绕我们的讨论已经发生了变化,”SambaNova首席执行官在彭博社看到的一封写给员工的邮件中表示。

英伟达凭借其高带宽内存芯片,是企业提供大量数学计算所需电力的王者,这些计算将大量数据转化为训练好的AI模型。但一些芯片初创公司正在寻求不同类型的内存,以更快地回答用户在推理过程中提出的逐一问题。此外,训练和推理的类别变得越来越模糊,因为推理型AI模型在被查询时会做出进一步判断,而非主要提前训练。

自从去年初中国开源推理模型DeepSeek亮相后,人们对这类快速推理芯片的兴趣上升,人工智能芯片制造商D-Matrix的首席执行官兼创始人Sid Sheth表示,D-Matrix是一家Microsoft支持的初创公司, 去年11月筹集了2.75亿美元 。推理模型全年不断进步,促使公司开发更强大的人工智能应用,需要更快的推理。

谢斯说:“现在模型在回应前会思考不同的可能性,你希望加快思考过程。”“它思考得越快,响应越快,应用的互动性就越强。”

周四,OpenAI 发布了首个运行在Cerebras芯片上的模型。Anthropic 与 亚马逊的 Trainium 和谷歌的张量处理单元芯片达成协议。Microsoft上个月发布了其第二代AI芯片Maia,如果想用它开发产品,可以使用OpenAI的芯片知识产权。人工智能芯片初创公司Etched 上个月在一轮融资中筹集了约5亿美元 ,以助力其与英伟达竞争的雄心。

话虽如此,英伟达已经证明并很可能继续成为一个异常强大的市场领导者。公司拥有多种产品线,并承诺每年推出一次芯片的全面重新设计。与Groq的合作为英伟达提供了进一步扩展的机会。 上个月被问 及该协议是否会导致新的专用推理芯片,黄明明未作任何承诺,表示“也许有一个地方,我们可以创造出独特的东西。”

但Sheth预计Nvidia将在三月旗舰大会上宣布对快速推理芯片需求的回应。

在不同时间点,初创公司和成熟公司声称他们能与英伟达竞争,但大多数情况下他们做不到、不能、也没有。至少不是大规模或全面性的。这也是为什么即使是开发自家硅片的大公司——亚马逊、谷歌、Microsoft、OpenAI——仍然大量使用英伟达GPU来支撑其AI产品和云服务。

然而,我们开始看到裂痕。还有谁能,或者是否有人能把这些资金拉开到足够大的市场,为自己的芯片创造一个庞大的市场,还有待观察。

“如果你看行业的增长速度,你会看到专用硬件,”Jump的戴维斯说。“这在工程史上一直如此。你一开始是个普通的东西,然后它疯狂增长,最后有人发现你根本不能有一样东西。”

(来源:半导体行业观察综合)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4318期内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐