原标题:英特尔白皮书指明AI算力新阶段:从“重训练”迈向“重推理”

如果把过去的AI发展阶段概括为“重训练时代”,那么现在行业正进入一个新的阶段——“重推理时代”。

在训练阶段,GPU是绝对核心。但当大模型开始规模化部署、推理请求成指数级增长、强化学习与仿真系统逐步工业化,AI基础设施的资源结构开始出现新的变化:CPU在系统中的权重正在持续提升。

英特尔最新白皮书指出,这一趋势并非偶然,而是由AI工作负载结构变化所驱动。其中,至强6性能核处理器凭借其高核心数、大内存带宽和强大的编排能力,正成为AI推理与强化学习场景中的关键算力基座。

推理反超训练,AI 算力结构迎反转

AI 行业的算力投入,正在经历从 “重训练” 到 “重推理” 的根本性转变,这是推高 CPU 需求的首要原因。

过去,AI 发展以模型研发、训练为核心,海量数据的密集线性代数计算让 GPU 成为绝对主力,CPU 仅负责数据加载、简单编排等辅助工作,CPU:GPU 的用量比值维持在低位。但如今,AI正从研发机构走到各行各业,从“实验” 走向 “落地实战”,推理顺势成为算力支出的重心。

推理与训练在算力需求上的逻辑截然不同,推理的数据编排与管理对 CPU 有强依赖 。如果说训练的核心瓶颈是 GPU 的浮点算力,那么推理的核心瓶颈,早已转移到 CPU 侧的请求处理、编排调度与数据加工。

打开网易新闻 查看精彩图片

这让CPU 在推理流程中扮演 “空中交通管制员” 的角色:从用户提交请求开始,紧随其后的数据摄入、清洗、转换、批处理、格式转换等全流程核心环节,对CPU的依赖度普遍超过60%,在很多场景下甚至会达100% ;即便是 GPU 完成的轻量化推理计算,其前后的令牌流处理、KVCache的数据调度、检索路由、结果格式化,也高度依赖CPU。

打开网易新闻 查看精彩图片

行业实测数据更能说明问题:优化后的 GPU 单推理请求计算量极小,而 CPU 的数仓流水线非常耗时,往往超过 GPU 的前向传播时间,因此要改善整个工作流的效率,增添CPU的用量或选择更高性能的CPU至关重要。测试结果也发现:高端 GPU要搭配以至强6性能核为代表的高性能CPU ,推理吞吐量才有更可观的性能提升 ——因为在推理中,CPU 的编排效率比 GPU 的原始浮点算力更能决定 AI 推理的实际吞吐量。

更重要的是,Agentic AI 的普及进一步放大了 CPU 的需求。这种普及让企业从 “问答式 AI” 转向 “任务式智能体”,RAG、embedding搜索、多智能体链、多步工作流也成为标配,这些场景需要消耗大量的 CPU 侧逻辑处理能力;而智能体的 “规划 - 工具使用 - 反思 - 优化”的循环,也需要借助CPU来优化整个系统层面的算力结构,例如通过CPU 主导的代码生成 / 沙箱执行机制,来降低对超大参数模型的依赖。

打开网易新闻 查看精彩图片

An increased CPU:GPU ratio can benefit multi-agent architectures, where execution agents use VMs as sandboxes to execute code[1].

对于云厂商的多租户 GPU 集群而言,GPU 密度越高,对 CPU 的“伴生”需求就越强——因为 队列管理、安全隔离、MIG 切片分配、资源调度等核心管理工作都需要依赖CPU 完成。其配备的CPU数量必须随GPU用量增加,否则GPU没有CPU在这些任务上的配合,就会现出闲置或空转,让巨额投资打水漂。

强化学习走向普及,CPU将成仿真与调度的核心基座

如果说推理增长是 CPU 需求上涨的 “基本盘”,那么强化学习(RL)的产业化落地,就是推动 CPU:GPU 比值进一步走高的 “增量引擎”。

曾经,RL 只是专攻视频游戏领域的小众技术,但随着今天自动驾驶、机器人、精密医疗、算法交易等领域的发展演进,RL 已进入更多复杂3D 仿真环境的产业化应用阶段,而这一过程对 CPU 同样有强依赖或强需求——RL 的核心框架中,环境步进、控制逻辑、搜索、轨迹管理等核心环节均由 CPU 主导,高保真的仿真环境更是需要海量的CPU 算力来支撑。

打开网易新闻 查看精彩图片

Reinforcement learning (RL) framework[2].

从行业应用来看,RL 的产业化落地场景正全面铺开,下面这些场景无一例外,都离不开规模化CPU算力的支撑:

•自动驾驶与机器人:特斯拉 Autopilot 的实时决策、机器人的灵巧操作,均需在 CARLA、Isaac Gym 等仿真器中完成训练,多智能体场景、传感器管道、物理仿真逻辑均是在CPU上实现;

•工业与金融:供应链路由、电网负荷调节、算法交易、市场仿真等场景,需要 RL 完成序贯决策优化,而并行环境推演、数据处理也依赖 CPU;

•大模型对齐:RLHF(人类反馈强化学习)是大模型安全对齐的标准方案,奖励评估、采样、GPU 集群编排等工作,进一步增加了 CPU 的调度压力;

•智能体 AI:自改进 AI 智能体的多步规划、工具使用决策框架,都将 RL 作为核心基础,也让 CPU 成为智能体决策的算力底座。

其实RL的训练架构就是先天决定了 它对CPU 的“偏爱”。主流的RL 架构均采用 “Actor-Learner 分离” 设计——Actor(环境步进、推理调用)负责样本收集,几乎全部运行在 CPU;Learner(优化器更新)负责梯度计算,运行在 GPU / 加速器。无论是 IMPALA 架构用数千CPU 并行收集经验,还是 Ray RLlib 为每个 EnvRunner 显式分配 CPU 资源,亦或是 AlphaZero 的蒙特卡洛树搜索(MCTS)需要在CPU 上进行大规模并行推演,它们都离不开CPU的支持,而且CPU用得好不好,也决定了它们的性能上限 。

而随着 RL 环境复杂度的不断攀升,如 高保真物理仿真、多传感器融合、多智能体协作等应用的涌现,其对CPU的需求还在持续攀升:CPU 的核心数和内存子系统的能力,特别是容量直接决定了仿真环境的并行上限,在 PPO 等主流 RL 算法中,CPU 的仿真速率主导了整体的吞吐,GPU 仅负责后续的梯度更新。

不是 GPU 失宠了,而是CPU价值在AI实战中走向回归

因此,问题已经不再是“GPU是否重要”,而是“如何通过CPU与GPU的协同,让GPU价值最大化”。

在大规模推理和复杂AI系统运行环境下,CPU承担着调度、预处理、数据管理与系统协调等关键角色。英特尔至强6处理器凭借其卓越的单核性能、内存带宽和扩展性,能够有效承载这些任务,使GPU专注于浮点密集型计算。只有当CPU与GPU形成高效联动,AI系统才能真正实现端到端性能与能效的最优平衡。AI算力结构的变化,本质上是一场系统效率革命。

【敲黑板】针对企业与云厂商不同场景的实操清单

看懂“CPU:GPU比值走高”的逻辑之后,真正能拉开差距的往往不是再多买几块GPU,而是把推理与Agent/RL的“全链路瓶颈”拆开看:控制平面、数据平面、资源平面分别怎么配、怎么管、怎么测。

一、对企业(自建/混合云):别只盯着GPU,把“端到端吞吐”做出来

先做一次“推理全链路画像”,再谈配比:把一次请求拆成接入→鉴权/限流→路由→RAG检索/重排→token流式输出→日志/审计→回写。分别看p50/p95延迟、CPU占用、内存带宽、磁盘/网络IO,找出真正的瓶颈点(很多时候不是GPU算不过来,而是CPU/内存/IO把GPU“饿”住)。

CPU选型别只看核数:优先关注单核性能、内存通道/带宽、NUMA拓扑、PCIe代际与通道数;推理服务通常是“多线程+高并发+小算子”,更怕抖动与跨NUMA。

RAG/Agent当成“CPUIO工程”来做:向量检索、重排、工具调用、结构化输出、沙箱执行、工作流编排,本质是CPU+内存+网络的组合题。建议把检索服务、重排服务、模型推理服务拆成可独立扩缩的组件,避免“一个大服务拖死整条链路”。

用“GPU利用率”做KPI容易误判,换成三类指标:①端到端token/s与p95延迟;②每千token成本(含CPU/内存/网络/存储摊销);③每千token能耗(方便做机房功耗与冷却预算)。

推理集群要预留“控制平面冗余”:在高并发与多租户场景下,队列、调度、限流、灰度、熔断会显著放大CPU开销;宁可多给一点CPU与内存,也不要让高价GPU因为调度抖动而空转。

如果你在做RL/RLHF把Actor(环境步进/仿真/采样)视为“CPU集群”,把Learner视为“GPU集群”。两边的产消速率要对齐:CPU供给不足会直接导致GPU等待样本;反过来GPU不足则会堆积轨迹与缓存,拖垮内存与网络。

二、对云厂商:CPU才是多租户效率的“隐形定价权”

产品形态从“卖GPU”升级到“卖吞吐/延迟SLO”:把实例规格从单一GPU型号,升级为GPU+CPU+内存+网络的成套能力包,并给出清晰SLO(例如并发、p95延迟、稳定token/s)。谁能把端到端体验标准化,谁就能获得更高溢价。

把调度与隔离当成“第一性能力”:多租户下的队列、配额、抢占、亲和性、MIG/切分、冷启动、热升级都吃CPU。建议在架构上分离:管理/控制平面(CPU重)与数据/推理平面(GPU重),并对控制平面做容量冗余与故障域隔离。

做“反脆弱”的压测与计费:压测不要只跑模型算子基准,要跑真实业务链路(RAG、重排、长上下文、流式输出、函数调用)。计费上也别只按GPU时长,给客户可解释的“每千token成本”与“峰值并发能力”,减少因链路瓶颈导致的体验争议。

网络与内存带宽是CPU价值放大的杠杆:高密度GPU节点下,CPU一旦跨NUMA或被内存带宽卡住,会直接表现为GPU利用率下降。对外可以把“拓扑友好”做成卖点:同机房同机架亲和、RDMA/高速互连、稳定的网络抖动控制。

提供可组合的推理编排能力:把 batching、路由、缓存、KV管理、日志审计、灰度发布做成托管能力(而不是让客户自己拼)。因为这些“看起来不性感”的CPU侧能力,决定了客户最终能不能把GPU打满。

[1].Figure 1 is adapted from"From Mind to Machine: The Rise of Manus Al as a Fully Autonomous Digital Agent" by Minjie Shen et al,used under CC BY 4.0.

[2].Figure 2 is adapted from the following source: Nikolopoulou, K. (August 15, 2023).Easy Introduction to Reinforcement Learning. Scribbr.