英特尔白皮书指明AI算力新阶段：从“重训练”迈向“重推理”|cpu|gpu|内存|推理|算法|英特尔

原标题：英特尔白皮书指明AI算力新阶段：从“重训练”迈向“重推理”

如果把过去的AI发展阶段概括为“重训练时代”，那么现在行业正进入一个新的阶段——“重推理时代”。

在训练阶段，GPU是绝对核心。但当大模型开始规模化部署、推理请求成指数级增长、强化学习与仿真系统逐步工业化，AI基础设施的资源结构开始出现新的变化：CPU在系统中的权重正在持续提升。

英特尔最新白皮书指出，这一趋势并非偶然，而是由AI工作负载结构变化所驱动。其中，至强6性能核处理器凭借其高核心数、大内存带宽和强大的编排能力，正成为AI推理与强化学习场景中的关键算力基座。

推理反超训练，AI 算力结构迎反转

AI 行业的算力投入，正在经历从 “重训练” 到 “重推理” 的根本性转变，这是推高 CPU 需求的首要原因。

过去，AI 发展以模型研发、训练为核心，海量数据的密集线性代数计算让 GPU 成为绝对主力，CPU 仅负责数据加载、简单编排等辅助工作，CPU:GPU 的用量比值维持在低位。但如今，AI正从研发机构走到各行各业，从“实验” 走向 “落地实战”，推理顺势成为算力支出的重心。

推理与训练在算力需求上的逻辑截然不同，推理的数据编排与管理对 CPU 有强依赖。如果说训练的核心瓶颈是 GPU 的浮点算力，那么推理的核心瓶颈，早已转移到 CPU 侧的请求处理、编排调度与数据加工。

这让CPU 在推理流程中扮演 “空中交通管制员” 的角色：从用户提交请求开始，紧随其后的数据摄入、清洗、转换、批处理、格式转换等全流程核心环节，对CPU的依赖度普遍超过60%，在很多场景下甚至会达100% ；即便是 GPU 完成的轻量化推理计算，其前后的令牌流处理、KVCache的数据调度、检索路由、结果格式化，也高度依赖CPU。

行业实测数据更能说明问题：优化后的 GPU 单推理请求计算量极小，而 CPU 的数仓流水线非常耗时，往往超过 GPU 的前向传播时间，因此要改善整个工作流的效率，增添CPU的用量或选择更高性能的CPU至关重要。测试结果也发现：高端 GPU要搭配以至强6性能核为代表的高性能CPU ，推理吞吐量才有更可观的性能提升 ——因为在推理中，CPU 的编排效率比 GPU 的原始浮点算力更能决定 AI 推理的实际吞吐量。

更重要的是，Agentic AI 的普及进一步放大了 对CPU 的需求。这种普及让企业从 “问答式 AI” 转向 “任务式智能体”，RAG、embedding搜索、多智能体链、多步工作流也成为标配，这些场景需要消耗大量的 CPU 侧逻辑处理能力；而智能体的 “规划 - 工具使用 - 反思 - 优化”的循环，也需要借助CPU来优化整个系统层面的算力结构，例如通过CPU 主导的代码生成 / 沙箱执行机制，来降低对超大参数模型的依赖。

An increased CPU:GPU ratio can benefit multi-agent architectures, where execution agents use VMs as sandboxes to execute code[1].

对于云厂商的多租户 GPU 集群而言，GPU 密度越高，对 CPU 的“伴生”需求就越强——因为队列管理、安全隔离、MIG 切片分配、资源调度等核心管理工作都需要依赖CPU 完成。其配备的CPU数量必须随GPU用量增加，否则GPU没有CPU在这些任务上的配合，就会现出闲置或空转，让巨额投资打水漂。

强化学习走向普及，CPU将成为仿真与调度的核心基座

如果说推理增长是 CPU 需求上涨的 “基本盘”，那么强化学习（RL）的产业化落地，就是推动 CPU:GPU 比值进一步走高的 “增量引擎”。

曾经，RL 只是专攻视频游戏领域的小众技术，但随着今天自动驾驶、机器人、精密医疗、算法交易等领域的发展演进，RL 已进入更多复杂3D 仿真环境的产业化应用阶段，而这一过程对 CPU 同样有强依赖或强需求——RL 的核心框架中，环境步进、控制逻辑、搜索、轨迹管理等核心环节均由 CPU 主导，高保真的仿真环境更是需要海量的CPU 算力来支撑。

Reinforcement learning (RL) framework[2].

从行业应用来看，RL 的产业化落地场景正全面铺开，下面这些场景无一例外，都离不开规模化CPU算力的支撑：

•自动驾驶与机器人：特斯拉 Autopilot 的实时决策、机器人的灵巧操作，均需在 CARLA、Isaac Gym 等仿真器中完成训练，多智能体场景、传感器管道、物理仿真逻辑均是在CPU上实现；

•工业与金融：供应链路由、电网负荷调节、算法交易、市场仿真等场景，需要 RL 完成序贯决策优化，而并行环境推演、数据处理也依赖 CPU；

•大模型对齐：RLHF（人类反馈强化学习）是大模型安全对齐的标准方案，奖励评估、采样、GPU 集群编排等工作，进一步增加了 CPU 的调度压力；

•智能体 AI：自改进 AI 智能体的多步规划、工具使用决策框架，都将 RL 作为核心基础，也让 CPU 成为智能体决策的算力底座。

其实RL的训练架构就是先天决定了它对CPU 的“偏爱”。主流的RL 架构均采用 “Actor-Learner 分离” 设计——Actor（环境步进、推理调用）负责样本收集，几乎全部运行在 CPU；Learner（优化器更新）负责梯度计算，运行在 GPU / 加速器。无论是 IMPALA 架构用数千CPU 并行收集经验，还是 Ray RLlib 为每个 EnvRunner 显式分配 CPU 资源，亦或是 AlphaZero 的蒙特卡洛树搜索（MCTS）需要在CPU 上进行大规模并行推演，它们都离不开CPU的支持，而且CPU用得好不好，也决定了它们的性能上限。

而随着 RL 环境复杂度的不断攀升，如高保真物理仿真、多传感器融合、多智能体协作等应用的涌现，其对CPU的需求还在持续攀升：CPU 的核心数和内存子系统的能力，特别是容量直接决定了仿真环境的并行上限，在 PPO 等主流 RL 算法中，CPU 的仿真速率主导了整体的吞吐，GPU 仅负责后续的梯度更新。

不是 GPU 失宠了，而是CPU价值在AI实战中走向回归

因此，问题已经不再是“GPU是否重要”，而是“如何通过CPU与GPU的协同，让GPU价值最大化”。

在大规模推理和复杂AI系统运行环境下，CPU承担着调度、预处理、数据管理与系统协调等关键角色。英特尔至强6处理器凭借其卓越的单核性能、内存带宽和扩展性，能够有效承载这些任务，使GPU专注于浮点密集型计算。只有当CPU与GPU形成高效联动，AI系统才能真正实现端到端性能与能效的最优平衡。AI算力结构的变化，本质上是一场系统效率革命。

【敲黑板】针对企业与云厂商不同场景的实操清单

看懂“CPU:GPU比值走高”的逻辑之后，真正能拉开差距的往往不是再多买几块GPU，而是把推理与Agent/RL的“全链路瓶颈”拆开看：控制平面、数据平面、资源平面分别怎么配、怎么管、怎么测。

一、对企业（自建/混合云）：别只盯着GPU，把“端到端吞吐”做出来

先做一次“推理全链路画像”，再谈配比：把一次请求拆成接入→鉴权/限流→路由→RAG检索/重排→token流式输出→日志/审计→回写。分别看p50/p95延迟、CPU占用、内存带宽、磁盘/网络IO，找出真正的瓶颈点（很多时候不是GPU算不过来，而是CPU/内存/IO把GPU“饿”住）。

CPU选型别只看核数：优先关注单核性能、内存通道/带宽、NUMA拓扑、PCIe代际与通道数；推理服务通常是“多线程+高并发+小算子”，更怕抖动与跨NUMA。

把RAG/Agent当成“CPU与IO工程”来做：向量检索、重排、工具调用、结构化输出、沙箱执行、工作流编排，本质是CPU+内存+网络的组合题。建议把检索服务、重排服务、模型推理服务拆成可独立扩缩的组件，避免“一个大服务拖死整条链路”。

用“GPU利用率”做KPI容易误判，换成三类指标：①端到端token/s与p95延迟；②每千token成本（含CPU/内存/网络/存储摊销）；③每千token能耗（方便做机房功耗与冷却预算）。

推理集群要预留“控制平面冗余”：在高并发与多租户场景下，队列、调度、限流、灰度、熔断会显著放大CPU开销；宁可多给一点CPU与内存，也不要让高价GPU因为调度抖动而空转。

如果你在做RL/RLHF：把Actor（环境步进/仿真/采样）视为“CPU集群”，把Learner视为“GPU集群”。两边的产消速率要对齐：CPU供给不足会直接导致GPU等待样本；反过来GPU不足则会堆积轨迹与缓存，拖垮内存与网络。

二、对云厂商：CPU才是多租户效率的“隐形定价权”

产品形态从“卖GPU”升级到“卖吞吐/延迟SLO”：把实例规格从单一GPU型号，升级为GPU+CPU+内存+网络的成套能力包，并给出清晰SLO（例如并发、p95延迟、稳定token/s）。谁能把端到端体验标准化，谁就能获得更高溢价。

把调度与隔离当成“第一性能力”：多租户下的队列、配额、抢占、亲和性、MIG/切分、冷启动、热升级都吃CPU。建议在架构上分离：管理/控制平面（CPU重）与数据/推理平面（GPU重），并对控制平面做容量冗余与故障域隔离。

做“反脆弱”的压测与计费：压测不要只跑模型算子基准，要跑真实业务链路（RAG、重排、长上下文、流式输出、函数调用）。计费上也别只按GPU时长，给客户可解释的“每千token成本”与“峰值并发能力”，减少因链路瓶颈导致的体验争议。

网络与内存带宽是CPU价值放大的杠杆：高密度GPU节点下，CPU一旦跨NUMA或被内存带宽卡住，会直接表现为GPU利用率下降。对外可以把“拓扑友好”做成卖点：同机房同机架亲和、RDMA/高速互连、稳定的网络抖动控制。

提供可组合的推理编排能力：把 batching、路由、缓存、KV管理、日志审计、灰度发布做成托管能力（而不是让客户自己拼）。因为这些“看起来不性感”的CPU侧能力，决定了客户最终能不能把GPU打满。

[1].Figure 1 is adapted from"From Mind to Machine: The Rise of Manus Al as a Fully Autonomous Digital Agent" by Minjie Shen et al,used under CC BY 4.0.

[2].Figure 2 is adapted from the following source: Nikolopoulou, K. (August 15, 2023).Easy Introduction to Reinforcement Learning. Scribbr.