公众号记得加星标⭐️,第一时间看推送不会错过。
今年夏天,人工智能芯片初创公司Groq融资7.5亿美元,估值达69亿美元。仅仅三个月后,英伟达就在假期期间斥资近三倍于此,用于授权其技术并挖走其人才。
接下来的几天里,网络上的人工智能专家们纷纷猜测,英伟达如何才能证明花费 200 亿美元收购 Groq 的技术和人才是合理的。
专家们认为英伟达掌握着我们所不知道的信息。各种猜测层出不穷,从英伟达打算放弃HBM转而使用SRAM,到为了从三星获得更多代工产能,再到试图扼杀潜在竞争对手,不一而足。有些猜测比其他猜测更有说服力,我们自己也有一些看法。
我们目前所了解的情况
英伟达支付了200 亿美元,获得了 Groq 的知识产权的非独家授权,其中包括其语言处理单元 (LPU) 和配套软件库。
Groq 的 LPU 是其高性能推理即服务产品的基础,交易完成后,Groq 将保留该产品并继续不间断地运营。
这项安排显然是为了规避监管审查而设计的。英伟达并非收购Groq,而是获得其技术授权。但实际上……它确实是收购了Groq。
还有什么比这更能形容Groq首席执行官Jonathan Ross和总裁Sunny Madra连同其大部分工程人才一起跳槽到英伟达的交易呢?
没错,从技术上讲,Groq 仍然是一家独立公司,由 Simon Edwards 担任新任 CEO,但由于很多人才流失,很难想象这家芯片初创公司如何才能长期生存下去。
因此,英伟达此举彻底消灭竞争对手的说法是成立的。但考虑到此举可能引发反垄断诉讼,它是否真的值200亿美元则是另一回事。
应该是给SRAM用的吧?
关于英伟达动机的一个著名理论是,Groq 的 LPU 使用静态随机存取存储器 (SRAM),其速度比当今 GPU 中使用的高带宽存储器 (HBM) 快几个数量级。
目前,单个 HBM3e 内存堆栈每个模块的内存带宽约为 1 TB/s,每个 GPU 的内存带宽约为 8 TB/s。Groq 的 LPU 中的 SRAM 速度可比 HBM3e 快 10 到 80 倍。
由于大型语言模型 (LLM) 推理主要受限于内存带宽,Groq 可以实现惊人的词元生成速度。在 Llama 3.3 70B 测试中,Artificial Analysis 的基准测试人员报告称,Groq 的芯片可以达到 350 tok/s 的生成速度。当运行混合专家模型(例如 gpt-oss 120B)时,性能甚至更佳,芯片可以达到 465 tok/s 的生成速度。
目前全球正面临内存短缺,对HBM的需求空前高涨。因此,我们理解为什么有些人会认为Groq的这笔交易可以帮助英伟达应对即将到来的内存危机。
最简单的答案往往是正确的——只是这次不是。
很遗憾地告诉你,SRAM 并没有什么特别之处。它几乎存在于所有现代处理器中,包括英伟达的芯片。
SRAM 也有一个非常明显的缺点。它的空间利用率并不高。每个芯片最多只有几百兆字节,而 12 层 HBM3e 堆栈则有 36 GB,每个 GPU 总共有 288 GB 的存储空间。
Groq 的 LPU 每个只有 230 MB 的 SRAM,这意味着仅仅运行一个中等规模的 LLM 就需要数百甚至数千个这样的 LPU。如果精度为 16 位,则需要 140 GB 的内存来存储模型权重,并且每 128,000 个 token 序列还需要额外的 40 GB 内存。
Groq 需要使用高速互连织物将 574 个 LPU 缝合在一起才能运行 Llama 70B。
你可以通过制造更大的芯片来解决这个问题——Cerebras 的每片 WSE-3 晶圆都集成了超过 40 GB 的 SRAM,但这些芯片的尺寸堪比餐盘,功耗高达 23 千瓦。不过,Groq 并没有采用这种方案。
简而言之,如果英伟达想要制造一款使用 SRAM 而不是 HBM 的芯片,它根本不需要收购 Groq。
顺着数据流走
那么,英伟达为什么会斥资收购 Groq 呢?
我们推测,这实际上是指 Groq 的“流水线架构”。这本质上是一种可编程数据流设计,其明确目的是为了加速推理过程中计算的线性代数运算。
如今大多数处理器都采用冯·诺依曼架构。指令从内存中取出,经过解码、执行后,写入寄存器或存储在内存中。现代实现引入了分支预测等技术,但其原理基本相同。
数据流的工作原理不同。数据流架构并非进行大量的加载-存储操作,而是在数据流经芯片的过程中对其进行处理。
正如 Groq 所解释的那样,这些数据传送带“在芯片的 SIMD(单指令/多数据)功能单元之间传输指令和数据”。
“在装配过程的每个步骤中,功能单元都会通过传送带接收指令。这些指令会告诉功能单元应该去哪里获取输入数据(哪条传送带),应该用这些数据执行什么功能,以及应该把输出数据放在哪里。”
Groq 表示,这种架构有效地消除了导致 GPU 运行缓慢的瓶颈,因为这意味着 LPU 永远不会等待内存或计算跟上。
Groq 可以通过 LPU 实现这一点,而且多个 LPU 之间可以协同工作,这无疑是个好消息,因为 Groq 的 LPU 本身性能并不强劲。理论上,它们可以达到 BF16 的性能,大致相当于 RTX 3090 或 L40S 的 INT8 性能。但是,请记住,这是在理想情况下测得的峰值浮点运算性能。理论上,数据流架构应该能够在相同的功耗下实现更好的实际性能。
值得一提的是,数据流架构并非仅限于以 SRAM 为中心的设计。例如,NextSilicon 的数据流架构就采用了 HBM。Groq 选择纯 SRAM 设计是为了简化流程,但 Nvidia 完全可以基于 Groq 的 IP,使用 SRAM、HBM 或 GDDR 构建数据流加速器。
既然数据流真的好这么多,为什么没有更普及呢?因为要正确实现它真的非常麻烦。不过,Groq 已经成功地实现了这一点,至少在推理方面是这样。
正如Ai2的蒂姆·德特默斯(Tim Dettmers)最近所说,像英伟达这样的芯片制造商已经很快会发现,他们能用来提升芯片性能的手段越来越少。数据流为英伟达寻求更高速度提供了新的技术选择,而与Groq的合作意味着黄仁勋的公司在将其商业化方面处于更有利的地位。
一个针对推理进行优化的计算栈?
Groq 还为英伟达提供了一种推理优化的计算架构,而这正是英伟达一直以来所严重缺乏的。不过,它究竟能为英伟达带来什么,目前还不得而知。
英伟达的大多数“推理优化”芯片,例如H200或B300,与它们的“主流”同系列芯片并没有本质区别。事实上,H100和H200之间的唯一区别在于后者使用了速度更快、容量更大的HBM3e显存,而这恰好有利于推理密集型工作负载。
提醒一下,LLM 推理可以分为两个阶段:计算量大的预填充阶段,在此阶段处理提示;以及内存带宽密集型的解码阶段,在此阶段模型生成输出标记。
这种情况将随着英伟达在 2026 年推出的 Rubin 系列芯片而改变。Rubin CPX于 9 月份发布,其设计旨在加速推理管道中计算密集型的预填充阶段,从而释放其搭载 HBM 的 Vera Rubin 超级芯片来处理解码任务。
这种分散式架构最大限度地减少了资源争用,有助于提高利用率和吞吐量。
Groq 的 LPU 在设计上针对推理进行了优化,但它们的 SRAM 容量不足,无法作为优秀的解码加速器。不过,它们作为推测性解码部件可能很有意思。
如果你还不熟悉,推测性解码是一种利用小型“草稿”模型来预测大型模型输出的技术。当这些预测正确时,系统性能可以提升两到三倍,从而降低每个代币的成本。
这些推测性的草图模型通常都很小,最多也就几十亿个参数,因此 Groq 现有的芯片设计对于这种设计来说是合理的。
我们需要专门的加速器来进行推测性解码吗?当然需要,为什么不呢?它值200亿美元吗?这取决于你如何衡量。与市值在200亿美元左右的上市公司(例如惠普或Figma)相比,200亿美元似乎很高。但对英伟达来说,200亿美元相对来说是一个可以承受的数额——仅上个季度,其运营现金流就达到了230亿美元。最终,这意味着英伟达可以销售更多的芯片和配件。
那么,晶圆制造业多元化发展如何呢?
或许我们见过的最不可能的说法是,Groq 以某种方式为英伟达开放了额外的代工厂产能。
Groq目前使用GlobalFoundries的芯片制造服务,并计划采用三星的4纳米工艺技术制造其下一代产品。相比之下,英伟达几乎所有芯片都由台积电代工,并且严重依赖这家中国台湾巨头的先进封装技术。
这个理论的问题在于它根本站不住脚。英伟达并非不能找三星代工芯片。事实上,英伟达之前就曾委托三星代工——这家韩国巨头为英伟达生产了大部分安培架构的产品。英伟达确实需要台积电的先进封装技术来制造一些部件,比如A100,但它并不需要这家台湾公司来生产Rubin CPX芯片。三星或者英特尔或许都能胜任这项工作。
这一切都需要时间,获得 Groq 的知识产权许可并聘请其团队并不能改变这一点。
现实情况是,英伟达可能不会对Groq的当前一代LPU采取任何行动。Jensen可能只是在进行长远布局,正如他一贯的作风。
原文链接:https://www.theregister.com/2025/12/31/groq_nvidia_analysis/
(来源:编译自theregister )
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4274期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
求推荐
热门跟贴