公众号记得加星标⭐️,第一时间看推送不会错过。
英特尔和SambaNova周三宣布推出双方联合开发的、已投入生产的异构推理架构。该架构采用AI加速器或GPU进行预填充,SambaNova可重构数据流单元(RDU)SN50进行解码,并使用Xeon 6处理器来运行代理工具和进行系统编排。该平台旨在尽可能满足各种工作负载的需求,从而从英伟达和其他新兴厂商手中夺取部分市场份额。
英特尔和SambaNova联合开发的异构推理平台将推理过程拆分为多个阶段,分别由不同的芯片处理:它使用AI GPU或AI加速器来处理长提示信息并构建键值缓存;使用SambaNova的SN50 RDU进行解码和生成令牌;并使用Xeon 6处理器来运行与代理相关的操作(例如编译和执行代码以及验证输出),以及协调和分配跨硬件的工作负载。
这种将预填充、解码和token生成阶段分开的做法与英伟达Rubin平台的思路类似,后者基于Rubin CPX和配备HBM4显存的高性能Rubin GPU——但显而易见的区别在于Rubin CPX不会上市。但对英特尔而言更重要的是,新平台将采用其Xeon 6处理器,而不是竞争对手的产品。
该解决方案计划于 2026 年下半年面向企业、云运营商和自主人工智能项目推出,旨在帮助他们构建可扩展的推理平台,尤其适用于完全自主开发的编码代理和其他智能体工作负载。根据 SambaNova 的内部数据,与基于 Arm 的服务器 CPU 相比,Xeon 6 的 LLVM 编译速度提升超过 50%;与竞争对手的 x86 处理器(例如AMD EPYC )相比,其在向量数据库工作负载方面的性能提升高达 70%。两家公司声称,这些性能提升旨在缩短编码代理和类似应用的端到端开发周期。这种联合开发的、可用于生产环境的异构推理架构的最大优势或许在于,SambaNova SN50 和基于 Xeon 的服务器可直接兼容 30kW 的数据中心——这涵盖了绝大多数企业数据中心的功率需求。英特尔公司数据中心事业部(DCG)执行副总裁兼总经理凯沃尔克·凯奇奇安表示:“数据中心软件生态系统构建于x86架构之上,并运行于至强处理器之上——这为开发人员、企业和云服务提供商提供了一个成熟可靠的基础架构,使其能够大规模运行。未来的工作负载将需要异构计算,而此次与SambaNova的合作,将提供一个经济高效、高性能的推理架构,旨在满足客户的大规模需求——该架构由至强6处理器驱动。”
CPU,卷土重来
智能体人工智能工作负载正在重塑现代数据中心基础设施的计算需求,将性能瓶颈从以GPU为中心的推理转移到CPU密集型的编排和工作流管理。传统的AI推理流水线主要依赖GPU执行单次前向传播,其中输入标记化、模型执行和输出生成是顺序进行的。然而,新兴的智能体人工智能系统将推理转变为一个分布式、多步骤的过程,涉及规划、工具调用、验证和迭代推理。这种架构变化带来了巨大的CPU需求,使得CPU容量成为维持系统吞吐量和整体成本效益的关键因素。
在代理工作流中,CPU 执行编排任务,例如控制流管理、分支逻辑、重试以及多个代理和外部服务之间的协调。每次代理调用都可能需要与数据库、API、搜索引擎或向量存储进行交互,所有这些都会产生额外的 CPU、内存和 I/O 开销。此外,推理密集型工作负载通常需要沙盒执行环境进行验证和测试。这些迭代循环创建了多轮工作流,其中 CPU 决定端到端吞吐量。当 CPU 资源不足时,GPU 会处于空闲状态,等待预处理、工具执行或验证步骤完成,导致昂贵的加速器硬件利用率低下。
实验基准测试进一步证实了CPU工作负载在智能体流水线中的重要性。在一个模拟监管文件分析的金融异常检测工作流程中,CPU负责处理数据加载、基线计算、异常检测、文档检索以及通过网络搜索进行数据增强等任务。结果表明,CPU操作占据了总运行时间的大部分,仅数据增强一项就比基于GPU的模型推理步骤耗时更长。这凸显了仅靠推理加速无法优化性能;系统需要在CPU编排和GPU计算之间进行平衡。
第二个基准测试侧重于人工智能辅助代码生成,进一步揭示了CPU瓶颈。在该工作流程中,GPU生成候选解决方案,而CPU则在沙盒环境中执行和验证代码。在两千多个任务中,尽管使用了高核心数系统,基于CPU的沙盒执行仍然比GPU代码生成耗时略长。CPU阶段涉及子进程管理、测试执行和结果分析,这表明在智能体系统中,验证循环的时间可以与推理时间相媲美甚至超过推理时间。这些发现表明,如果不相应地扩展CPU性能,仅提高GPU性能并不能提高整体吞吐量。
这些实验得出的基础设施规模建议强调保持 CPU 与 GPU 的平衡比例。目前的指导原则是 CPU 与 GPU 的比例应在 1:1 到 1.4:1 之间,相当于每个 GPU 大约需要 86 到 120 个 CPU 核心,具体比例取决于工作负载特性。较小的模型由于生成令牌的速度更快,因此需要额外的 CPU 容量来保持 GPU 的满负荷运行,而更强大的 CPU 则可以降低所需的比例。未来的高性能 GPU 可能会进一步增加对 CPU 的需求,随着编排复杂性的增加,可能会推高 CPU 与 GPU 的比例。
其影响远不止于性能优化。CPU资源配置不足会导致编排延迟、工具执行缓慢以及验证循环变慢,所有这些都会降低GPU利用率并增加运营成本。相反,扩展CPU资源可确保数据准备、协调和验证的持续进行,从而使GPU能够以最高效率运行。这种系统级的平衡与微服务架构类似,在微服务架构中,整体性能取决于最慢的组件,而不是最快的组件。
总而言之:随着智能体人工智能的不断发展,CPU 将在推理基础设施中扮演日益重要的角色。从单次推理到多步骤工作流的转变,使得编排、协调和运行时管理的重要性日益凸显。因此,部署智能体的组织必须重新考虑传统的以 GPU 为中心的扩展策略,转而设计能够提供充足 CPU 容量的均衡架构。通过合理配置 CPU 和 GPU 资源,数据中心可以维持吞吐量,最大限度地减少加速器闲置,并优化下一代人工智能部署的总体拥有成本。
(来源:编译自tomshardware)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4371内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴