佐治亚理工发现：CPU偷懒让5块GPU集体摸鱼，成本只涨3%

硬核玩家2哈

2026-03-28 08:29 ·北京

多GPU集群跑大模型，瓶颈居然不在显卡——这个反直觉的结论来自佐治亚理工学院3月发布的一项研究。团队在测试中发现，部分配置下首Token延迟飙升5.4倍，而GPU利用率却低得离谱。

问题出在CPU身上。不是算力不够，是调度跟不上。

GPU在等CPU"发令枪"

GPU在等CPU"发令枪"

研究团队Euijun Chung等人测试了现代大模型推理场景下的多GPU系统。他们发现一个普遍现象：GPU资源充足时，性能反而断崖式下跌。症状包括内核启动延迟、通信阻塞、分词（Tokenization）耗时增加。

用个不太准确的类比：这就像F1赛车在维修区排队，技师团队人手不足，再快的引擎也只能干等。

论文指出，这类瓶颈即使在采用进程级隔离和CUDA Graphs（一种减少CPU开销的GPU优化技术）的先进服务栈中依然存在。换句话说，软件层面的优化没能根治硬件调度层面的短板。

具体数据很扎眼。在CPU资源受限的配置下，系统频繁超时；补足CPU核心后，首Token延迟（TTFT）降低1.36-5.40倍——全程没加一块GPU。

云厂商的定价盲区

云厂商的定价盲区

研究团队的发现指向一个被忽视的成本结构问题。

论文算了一笔账：相对GPU实例的定价，增加CPU核心的边际成本极低。这意味着用户花小钱升级CPU配置，就能让已有的昂贵GPU满血运转。云厂商的默认配比可能正在让用户"隐性亏损"。

团队测试了多种服务负载场景。中等负载下，CPU饥饿配置的故障率显著高于充足配置；高负载时差距进一步拉大。稳定性收益和延迟收益同样可观。

一个细节值得玩味：部分用户可能从未意识到自己买了"错配"的实例类型——GPU规格拉满，CPU却成为隐形天花板。

为什么现在才暴露？

为什么现在才暴露？

CPU瓶颈并非新问题，但在大模型推理场景下被放大了。

传统深度学习训练以GPU计算密集型为主，CPU主要负责数据加载和流程控制，负载相对平稳。而大模型推理的请求级并行度更高、调度更复杂：批处理（Batching）策略动态变化、KV缓存管理频繁、多轮对话状态切换——这些都需要CPU实时介入。

论文提到，现代推理框架如vLLM、TensorRT-LLM虽然优化了GPU内存和计算效率，却默认CPU资源"管够"。当实际部署中CPU核心被容器限制或超售时，性能模型就会崩塌。

研究团队建议将CPU配置视为多GPU推理的"关键调参项"，而非默认背景板。这对容量规划、成本优化和SLA（服务等级协议）保障都有直接意义。

行业会跟进吗？

行业会跟进吗？

论文结论对云服务商和模型部署团队都有参考价值。

对云厂商而言，默认实例配比可能需要重新审视——当前GPU实例的CPU配给是否基于过时假设？对终端用户，这意味着现有集群可能存在"免费"的性能提升空间：检查CPU利用率，调整容器资源限制，可能比扩容GPU更划算。

研究团队来自佐治亚理工学院的HPArch实验室，长期关注异构计算系统优化。论文已上传arXiv，编号2603.22774。

一个悬而未决的问题是：当CPU不再是瓶颈，下一个限制大模型推理效率的组件会是什么？内存带宽、网络拓扑，还是尚未被命名的中间层？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴