下给英伟达的新年战书，“小”芯片公司们喜迎2025年|gpu|内存|大语言模型|推理|英伟达

文 | 适道

2025年，有多少人想看英伟达楼塌了？

醒醒，这不太现实。

不过，2025年的AI算力市场或将迎来转变。

一方面，行业重点将从“训练模型”转向“模型推理”，意味着对推理基础设施的需求呈现上升趋势。例如，无论是OpenAI的o1和o3模型，还是Google的Gemini 2.0 Flash Thinking，均以更高强度的推理策略来提升训练后结果。

另一方面，训练好的大模型需要通过AI推理才能落地到各类场景中，随着千行百业的深入采用，AI工作负载格局将发生转变。例如，Open AI创建Sora代表着AI训练，而用户让Sora生成一段视频则代表着一个推理工作负载。

换句话说，大规模训练工作负载是“研发阶段”，推理工作负载是“商业化阶段”，你想在AI领域赚钱，就要扩大推理工作负载。

巴克莱研报显示：目前，AI推理计算需求将快速提升，预计其将占通用人工智能总计算需求的70%以上，推理计算的需求甚至可以超过训练计算需求，达到后者的4.5倍。

2025年，这些演变将为自身“推理”过硬的“小”芯片公司提供发育空间。

这不，别人赶着新年送祝福，而Groq、SambaNova、Positron AI等专注于推理的初创公司则是向霸主英伟达纷纷亮出了虎牙。

一次讲透推理芯片&训练芯片

如果我们将AI训练比作让模型“考驾照”，那么推理就是让模型“上路”。

训练阶段，你要请“教练”（优化算法）“指导”（反向传播和参数调整）模型；推理阶段，“驾驶员”（模型）要基于自己学到的知识技能，灵活应对实际路况。因此，推理阶段只涉及前向传播，通常比训练阶段更高效。

对应到芯片，训练芯片具备更高的计算能力，旨在支持训练过程中的大量计算和数据处理；推理芯片通常靠较少的计算能力完成工作。

问题一：为什么不用传统CPU进行推理？

答：牛也能当交通工具，但速度太慢。

问题二：为什么不继续用GPU做推理任务？

答：直升机也是通勤工具，但成本太高，而且你还得找停机坪。

虽然GPU非常适合实现神经网络的训练工作，但它在延迟、功耗等方面表现不算最佳，留给竞争对手一些遐想空间。

我们都知道，AI推理要求模型在作答前先进行“思考”——“思考”越多，答案越好。然而，模型的“思考”同时也伴随着时间的流逝，以及资金的消耗。

因此，“小”芯片公司的主线任务则变成——优化“思考”所消耗的时间成本，或是资金成本中的任何一项，就能建立自身护城河。

挑战者联盟都说了些啥？

这次放话的挑战者分别是Groq、SambaNova，以及Positron AI。

前二位的名声更大一些。

先说Groq，这家创企由前谷歌TPU核心团队的“8叛将”于2016年创办，平时喜欢在官博“喊麦”，代表作为《Hey Zuck...》《Hey Sam...》《Hey Elon...》等等。

当然，Groq的实力还是不容小觑，其AI推理引擎LPU号称做到了“世界最快推理”，不仅有超快的大模型速度演示，还有远低于GPU的token成本。

2023年7月，Groq甩出了LPU的推理速度，运行Meta的Llama 3 80亿参数大模型，每秒超过1250个token。

2024年12月，Groq推出一款高性能计算芯片，名为“猛兽”（Beast）。据称，这头“猛兽”在AI推理任务中的性能超越英伟达的某些主流GPU；能够通过优化硬件设计，减少不必要的运算环节，大幅提升计算效率。

也正是2024年8月，Groq双喜临门，获得了6.4亿美元D轮融资，估值达28亿美元；其创始人Jonathan Ross请来杨立昆担任技术顾问。

Groq的LPU（线性处理单元）不同于GPU（图形处理单元），设计理念是解决传统架构中外部内存的瓶颈，通过将大量计算资源集中在片内共享内存中，实现数据流动的高效优化，避免外部内存的频繁调用。此外，LPU支持多个张量流处理器的串联扩展，规避了传统GPU集群中因数据交换带来的性能损耗。

对于2025年，Groq首席布道官Mark Heaps喊话：“我希望客户能认识到与现有技术相比的新进展。许多人对我们说，我们喜欢你们的技术，但没人因为选择某家传统供应商而被解雇。如今，市场已经开始变化，人们意识到从传统供应商处获得芯片并不容易，而且性能也未必如Groq的技术那样出色。我希望更多人愿意尝试这些新技术。”

不过，Groq要解决的真正问题是客户总体成本。

虽然创始人Jonathan Ross宣称：LPU速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

但自称“Groq超级粉丝”的原阿里副总裁贾扬清对比了LPU和H100，他的结论却是：用Groq的LPU反而使硬件成本和能耗成本大幅度上升，在运行Llama2- 70b模型时，305张Groq才能等同于8张英伟达H100。

芯片专家姚金鑫也指出，Groq架构建立在小内存（230MB）、大算力上。按照当前对大模型的推理部署，7B模型大约需要14G以上的内存容量，为了部署一个7B的模型，大约需要70张左右。

此前一位自称Groq员工的用户表示，Groq致力于成为最快速的大规模模型硬件，并发誓三年内赶超英伟达。

第二位成员是SambaNova。

SambaNova的创立时间比Groq晚一年，如今却以50亿美元的估值身居AI芯片初创公司榜首。

SambaNova RDU既有GPU 10 倍以上的片上分布SRAM，也有适用于需要快速数据传输的大规模计算任务的HBM。（Groq则是摒弃了HBM，仅依赖SRAM进行计算。）其架构可以自动做到极致的算子融合，达到 90%以上的HBM利用率，使得RDU 对 GPU 有了 2-4 倍的性能优势。

值得一提，SambaNova在业务模式上颇具野心。公司不单卖芯片，而是出售其定制的技术堆栈，从芯片到服务器系统，甚至包括部署大模型。

联创Rodrigo Liang认为，大模型与生成式AI商业化的下一个战场是企业的私有数据，尤其是大企业。最终，企业内部不会运行一个GPT-4或谷歌Gemini那样的超大模型，而是根据不同数据子集创建150个独特的模型，聚合参数超过万亿。

目前，SambaNova已赢得不少大客户，包括世界排名前列的超算实验室，日本富岳、美国阿贡国家实验室、劳伦斯国家实验室，以及咨询公司埃森哲等。

对于2025年，Liang喊话：“对于SambaNova来说，关键是推动从训练到推理的转变。行业正快速迈向实时应用，推理工作负载已成为AI需求的核心。我们的重心是确保技术能够帮助企业高效、可持续地扩展规模。”

“如果我有一根魔法棒，我会解决AI部署中的电力问题。如今，大多数市场仍在使用设计上不适合规模化推理的高耗能硬件，这种方式在经济上和环境上都不可持续。SambaNova的架构已经证明有更好的解决方案。我们能耗仅为传统方案的十分之一，使企业能够在不突破预算或碳排放目标的情况下实现AI目标。我希望市场能更快地接受这种优先考虑效率和可持续性的技术。”

第三位是Positron AI。

Positron成立于2023年4月，名气相对较小。

2023年12月，Positron AI推出了一款推理芯片，声称可以执行与英伟达H100相同的计算，但成本仅为五分之一。

2024年10月，Positron AI还上榜了The information的《2024全球50家最具潜力初创公司榜》。

Positron CEO Thomas Sohmers表示：2024年，AI计算开支的重心已经转向推理，预计这种趋势将沿着“指数增长曲线”继续扩大。

对于2025年，Sohmers喊话：“我认为，如果我们能部署足够多的推理计算能力——从供应链角度看，我有信心能做到——那么通过提供更多专用于推理的计算资源，我们将能够推动‘链式思维’等能力的广泛采用。”

据悉，Positron的愿景是让人人负担得起AI推理。对此，Sohmers的新年愿望是：“我想做同样多的事情来鼓励使用这些新工具来帮助我的妈妈。我进入技术领域的部分原因是因为我希望看到这些工具帮助人们能够利用他们的时间做更多的事情——学习他们想要的一切，而不仅仅是他们从事的工作。我认为降低这些东西的成本将会促进这种扩散。”

结语

面对四面八方的挑战者，英伟达似乎无暇顾及。

前几天，英伟达为推理大模型打造的B300系列出炉——高算力，相比B200在FLOPS上提高50%；大显存，192GB提升到288GB，即提高了50%。

B300将有效地提升大模型的推理性能：每个思维链的延迟更低；实现更长的思维链；降低推理成本；处理同一问题时，可以搜索更多样本，提高模型能力。

根据半导体“牧本周期”——芯片类型有规律地在通用和定制之间不断交替——在某个特定时期内，通用结构最受欢迎，但到达一定阶段后，满足特定需求的专用结构会奋起直追。

当前，英伟达所代表的通用结构时代正处于颠覆。

更何况，英伟达早已全面开花。除了专为云计算、5G电信、游戏、汽车等领域客户构建定制芯片。2025年上半年，英伟达还将发布其最新一代人形机器人芯片Jetson Thor。

所以，最后还是那句话：不要想着干掉英伟达，而是去做英伟达之外的事。