打开网易新闻 查看精彩图片

编辑|张倩、+0

在被谷歌 TPU 挑战霸主地位后,英伟达终于急了?

今天,人工智能芯片初创公司 Groq 发布了一则重磅消息,他们已经与英伟达就 Groq 的推理技术达成了非排他性许可协议。

打开网易新闻 查看精彩图片

这个协议并不是说英伟达要把 Groq 买下来,而是挖走 Groq 的几员大将 —— 创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 及多名核心工程师。要知道,Jonathan Ross 曾在谷歌主导 TPU 的开发。2016 年底,他从谷歌离职,并带走了当时 TPU 核心 10 人团队中的 7 位 。这批人带走了 TPU 最核心的技术理念和设计经验,在加州山景城共同创办了 AI 芯片公司 Groq。

这批人和他们的知识产权有多值钱?看看交易额就知道了。据 Groq 投资者、Disruptive Technology Advisers 的首席执行官 Alex Davis 透露,这笔交易价值约 200 亿美元,这比该初创公司 9 月份的估值还高出 131 亿美元。

交易过后,Groq 将继续作为独立公司运营,由首席财务官 Simon Edwards 接任 CEO,其 GroqCloud 云服务也将正常运行。

通过这种方式,英伟达可以在不直接购买的情况下获得初创企业的人才和技术,被称为 Reverse Acquihire(反向收购雇佣)。这种方式避免了与传统收购相关的反垄断审查。在过去三年中,微软、Meta 等科技巨头已经达成了多项此类交易,以推进其人工智能发展路线图。

Groq 最引人注目的是其自主研发的 LPU(语言处理单元)芯片。与英伟达主导的 GPU 不同,LPU 专为 AI 推理场景设计,号称运行大语言模型的速度可达 GPU 的 10 倍,能耗却只有十分之一。而这正是英伟达所需要的,因为 TPU 之所以能挑战英伟达的霸主地位,「能耗、延迟方面能打」是一个关键优势。

英伟达 CEO 黄仁勋在内部邮件中表示,计划将 Groq 的低延迟处理器整合到英伟达 AI 工厂架构中,以支持更广泛的 AI 推理和实时工作负载。

TPU 之父带队

Groq 用 LPU 闯出一片天

Groq 成立于 2016 年,其诞生源于对传统计算架构的深刻反思。创始人 Jonathan Ross 曾师从 Yann LeCun,后来在 Google 任职。他参与了谷歌 TPU 项目(当时为 20% 项目),负责设计和实现第一代 TPU 芯片的核心组件。TPU 的成功证明了专用架构在 AI 计算上的巨大潜力,也成为了 Groq 技术的起点。

打开网易新闻 查看精彩图片

Google 有一个著名的「20% 自由时间」文化,允许工程师用工作时间的 20% 去做自己感兴趣、但并非老板指派的「私活」或「创新项目」。

Ross 认为,传统的 CPU 和 GPU 架构为了兼顾图形渲染和通用计算,保留了复杂的缓存管理、分支预测及动态硬件调度。这些设计虽然提高了通用性,但导致了计算性能的不可预测性,并非 AI 推理的必要组件。基于此,Groq 确立了「软件定义的确定性」这一核心理念。

LPU(Language Processing Unit)摒弃了传统的硬件调度器,改由编译器在编译阶段精确计算每一步数据的流动和时序。这种设计消除了「缓存未命中」和「分支预测失败」的风险,核心计算单元 TSP(Tensor Streaming Processor)采用流式处理模式,确保数据如流水线般处理,没有任何闲置周期。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

在存储方案上,Groq 未采用 Nvidia GPU 常用的高带宽内存(HBM),而是将静态随机存取存储器(SRAM)直接集成在芯片内部。这种设计使单芯片内存带宽高达 80TB/s,是传统 HBM 方案的 20 倍以上。尽管 SRAM 占地面积大导致单芯片容量极小(约 230MB),但其极高的带宽允许 LPU 在 Batch Size 为 1(即单次处理一个请求)的情况下依然保持计算单元满载,从而实现极低的延迟。

由于单芯片内存有限,运行 Llama 3 70B 这样的大模型通常需要数百张芯片级联。为此,Groq 研发了 RealScale 互联技术。该技术不依赖传统的网络交换机,而是通过直接线缆连接,并解决了「晶振漂移」导致的时钟不同步问题。在这一架构下,整个集群实现了全局时钟同步,数百张芯片宛如一枚巨大的虚拟芯片协同工作。

得益于上述设计,Groq 在处理大语言模型时展现出差异化的性能优势:在 Llama 系列模型的推理中,其响应速度可达每秒 500 Tokens(相比之下 ChatGPT 约为 40 Tokens/s),且几乎没有延迟抖动,在实时交互场景中建立了独特的竞争壁垒。

但为了换取这种极致速度,Groq 方案在物理空间和功耗上付出了代价:一个标准机架满载功耗约为 26kW 至 30kW,且需要比 GPU 方案更多的机架数量来承载同等规模的模型参数。

TPU 步步紧逼

英伟达急了?

英伟达这次的大手笔属于形势所迫,因为他们的 AI 芯片霸主地位正面临严峻挑战。

目前,AI 算力市场的需求正从训练转向推理。预计到 2030 年,推理将占 AI 计算总量的 75%,市场规模达 2550 亿美元。但在推理方面,英伟达的芯片并不具备绝对优势,面临谷歌 TPU、Groq LPU 等多方面竞争。

先来说谷歌 TPU。此前,SemiAnalysis 的一篇文章报道称,谷歌新出的 TPU v7 实现了很高的实际模型算力利用率,总体拥有成本比英伟达 GB200 系统低约 30%~40%。也就是说,用上 TPU 之后,企业可以省一大笔钱。而且,谷歌的 TPU 不再局限于自家使用,而是开始大规模出货,预计 2027 年实现年产 500 万颗的目标。

市场的反应也能说明一切:2025 年 10 月,Anthropic 协议通过多达 100 万个 TPU 获取超过 10 亿瓦的谷歌算力;11 月,Meta 开始洽谈于 2027 年在其数据中心使用谷歌 TPU。这样的转向足以给英伟达带来压力。

除了谷歌,Groq 也是不容小觑的竞争对手。早期 Groq 保持相对低调。但随着 2023 年至 2024 年生成式 AI 市场的爆发,行业重心从训练端向推理端延伸,Groq 凭借在模型推理上的速度优势受到关注,资本市场随即跟进。

最引人注目的是,今年 2 月,Groq 与沙特阿美数字公司签订 15 亿美元协议,合作建设全球最大 AI 推理数据中心,初期部署 19000 个 LPU 处理器。2025 年 12 月,Groq 又签署协议加入美国 AI「创世纪计划」,成为 24 家签署公司之一。

今年 9 月,Groq 刚刚完成 7.5 亿美元融资,估值达到 69 亿美元。公司透露,其平台已服务超过 200 万名开发者,较去年的 35.6 万人增长了五倍多。

这些重要事件彰显了 Groq 在 AI 芯片领域的潜力以及团队的硬核研发能力,足以让英伟达动心。

在这场交易之后,英伟达的霸主地位是否可以巩固?我们拭目以待。

https://groq.com/blog/the-groq-lpu-explained

https://news.ycombinator.com/item?id=39431989

https://groq.com/blog/the-groq-lpu-explained