芯东西2月25日报道,2月24日,英特尔宣布向美国AI芯片独角兽SambaNova的超过3.5亿美元(约合人民币24亿元)E轮战略融资注资,具体金额未披露。
同时,SambaNova推出其第五代AI芯片SN50,号称这是“唯一一款能够提供智能体AI所需速度和吞吐量的芯片”,最高速度达同类芯片的5倍,经多芯互连可支持的单模型参数规模达10万亿、上下文长度达1000万个token。
据SambaNova披露,与Blackwell B200 GPU相比,SN50的最大速度是其5倍,智能体推理的吞吐量是其3倍以上,这在Meta的Llama 3.3 70B等一系列模型上得到充分体现。
据外媒报道,在此之前,英特尔曾讨论过以约16亿美元(约合人民币110亿元)收购SambaNova,但谈判最终破裂。不过双方均未回应过此事。
SambaNova由多位斯坦福大学教授在2017年创立,在2021年融资后估值达到50亿美元(约合人民币344亿元)。其董事长是英特尔CEO陈立武。英特尔曾多次投资SambaNova。
在最新公告中,SambaNova与英特尔宣布达成了一项多年战略合作计划,旨在提供高性能、高性价比的AI推理解决方案,打造下一代异构AI数据中心,整合英特尔至强处理器、英特尔GPU、英特尔网络和存储及SambaNova系统,以释放数十亿美元的推理市场机遇。
消息公布后,英特尔在美东时间周二股价涨超5%。
一、5倍算力、4倍网络带宽,能支撑10万亿参数大模型
SN50芯片基于SambaNova的可重构数据流单元(RDU)架构,超低延迟可提供实时响应,能支持数千个并发AI会话,并通过更高的硬件利用率降低了每个token的成本。
每块芯片的算力提高到第四代SN40L的5倍,网络带宽提高至4倍。
SambaRack SN50将16块SN50芯片组合在一起,可运行多达10万亿个参数、1000万个token的超大模型。
互连的SambaRack可通过每秒数TB的互连速度连接多达256块芯片,从而缩短首次token生成时间,并支持更大的批处理规模,因此可以部署具有更高吞吐量和响应速度的模型。
SambaRack的功耗平均仅需20kW,可在现有的风冷数据中心中运行。这为运行gpt-oss等模型的推理服务提供商带来了总拥有成本(TCO)优势,其节能效果是B200 GPU的8倍。
SN50将于2026年下半年开始发货。软银集团将成为首家在日本下一代AI数据中心部署SN50的客户。
二、基于数据流、三层内存架构,跑大模型时更快更高能效
SambaNova团队认为,智能体需要智能、预测性和弹性的基础架构,要实现可行智能体,硬件必须能够即时适应突发性工作负载,在专家模型之间无延迟切换。
GPU擅长AI模型训练,但AI推理是数据移动和内存优化方面的挑战,需要不同的架构方法。
为了执行AI推理,GPU必须多次冗余地调用片外内存,每次内存调用都会增加处理延迟并消耗能量,会导致高功耗问题。
在GPU上部署多个模型的标准方法是将模型加载到高带宽内存(HBM)中,但GPU HBM资源稀缺且成本高昂。
当工作负载需要一个未加载的模型时,系统必须卸载当前模型并获取新模型,这个过程通常以秒为单位。即便使用vLLM的1级睡眠模式,唤醒一个小型模型也需要0.1到0.8秒。
对于智能体所需的大型推理模型而言,这种唤醒时间会造成3到6秒的延迟。对于执行涉及5个不同模型的10步推理过程的AI智能体来说,这些延迟累积起来会达到30秒,导致实时智能体工作流程无法使用。
SambaNova的RDU正是为解决这一问题而设计的。
RDU将给定AI模型的计算图映射到处理器上数据传输的最有效路径。这种方法消除了冗余的内存调用,可显著降低延迟和功耗。
与受限于单卡HBM容量的GPU不同,SN50 RDU采用独特的三层内存架构,结合了片上SRAM、海量HBM和超高速SRAM。
这种分层结构使芯片能承载最大的模型,支持在毫秒级时间内运行和切换多个模型。
此外,借助SN50,输入token可缓存在内存中,从而减少预填充处理时间和请求的首token获取时间(TTFT)。
结合这些优势,其内存架构非常适合作为智能体的缓存,能够更高效地处理任务。
SambaNova还在SambaStack上推出了由RDU支持的可配置模型包,与传统的GPU架构和vLLM等推理框架相比,这些模型包的切换速度更快。
三、与英特尔联手,加速推出AI云平台
作为多年战略合作的一部分,英特尔计划对SambaNova进行战略投资,以加速推出基于英特尔技术的AI云平台。
此次合作预计将涵盖三个关键领域:
(1)AI云扩展:SambaNova正在扩展其垂直整合的AI云平台,该平台基于英特尔至强处理器构建,并针对大语言模型和多模态模型进行了优化。该平台将提供低延迟、高吞吐量的AI服务,并由参考架构、部署蓝图以及与系统集成商和软件供应商的合作关系提供支持。
(2)集成AI基础设施:将SambaNova的系统与英特尔的CPU、加速器和网络技术相结合,为推理、代码生成、多模态应用和智能体工作流提供可扩展的、可用于生产的推理能力。
(3)市场推广执行:通过英特尔的全球企业、云和合作伙伴渠道进行联合销售和联合营销,以加速AI生态系统的普及。
据英特尔披露,此次合作是对英特尔现有数据中心GPU投入的补充,并不会改变其在AI领域的竞争战略,英特尔将继续加大对GPU知识产权、架构、产品、软件和系统的投资,并强化其从边缘到云端AI战略路线图。
结语:AI推理市场迎来新组合
随着AI推理蓬勃发展,科技公司们都在寻求更高速度和效率、更低企业级AI部署成本的AI硬件基础设施方案。
许多云端AI芯片创企都将自家产品的卖点放在了高能效上,既顺应AI推理需求旺盛的趋势,又能避开英伟达强于AI训练的锋芒。
通过合作,SambaNova可以借助英特尔的全球影响力扩大其AI处理器的规模,英特尔也增强了在AI推理领域的综合实力。这将为日趋多元化的AI推理市场提供一个有竞争力的选择。
热门跟贴