打开网易新闻 查看精彩图片

多GPU集群跑大模型,瓶颈居然不在显卡——这个反直觉的结论来自佐治亚理工学院3月发布的一项研究。团队在测试中发现,部分配置下首Token延迟飙升5.4倍,而GPU利用率却低得离谱。

问题出在CPU身上。不是算力不够,是调度跟不上。

GPU在等CPU"发令枪"

GPU在等CPU"发令枪"

研究团队Euijun Chung等人测试了现代大模型推理场景下的多GPU系统。他们发现一个普遍现象:GPU资源充足时,性能反而断崖式下跌。症状包括内核启动延迟、通信阻塞、分词(Tokenization)耗时增加。

用个不太准确的类比:这就像F1赛车在维修区排队,技师团队人手不足,再快的引擎也只能干等。

论文指出,这类瓶颈即使在采用进程级隔离和CUDA Graphs(一种减少CPU开销的GPU优化技术)的先进服务栈中依然存在。换句话说,软件层面的优化没能根治硬件调度层面的短板。

具体数据很扎眼。在CPU资源受限的配置下,系统频繁超时;补足CPU核心后,首Token延迟(TTFT)降低1.36-5.40倍——全程没加一块GPU

云厂商的定价盲区

云厂商的定价盲区

研究团队的发现指向一个被忽视的成本结构问题。

论文算了一笔账:相对GPU实例的定价,增加CPU核心的边际成本极低。这意味着用户花小钱升级CPU配置,就能让已有的昂贵GPU满血运转。云厂商的默认配比可能正在让用户"隐性亏损"。

团队测试了多种服务负载场景。中等负载下,CPU饥饿配置的故障率显著高于充足配置;高负载时差距进一步拉大。稳定性收益和延迟收益同样可观。

一个细节值得玩味:部分用户可能从未意识到自己买了"错配"的实例类型——GPU规格拉满,CPU却成为隐形天花板。

为什么现在才暴露?

为什么现在才暴露?

CPU瓶颈并非新问题,但在大模型推理场景下被放大了。

传统深度学习训练以GPU计算密集型为主,CPU主要负责数据加载和流程控制,负载相对平稳。而大模型推理的请求级并行度更高、调度更复杂:批处理(Batching)策略动态变化、KV缓存管理频繁、多轮对话状态切换——这些都需要CPU实时介入。

论文提到,现代推理框架如vLLM、TensorRT-LLM虽然优化了GPU内存和计算效率,却默认CPU资源"管够"。当实际部署中CPU核心被容器限制或超售时,性能模型就会崩塌。

研究团队建议将CPU配置视为多GPU推理的"关键调参项",而非默认背景板。这对容量规划、成本优化和SLA(服务等级协议)保障都有直接意义。

行业会跟进吗?

行业会跟进吗?

论文结论对云服务商和模型部署团队都有参考价值。

对云厂商而言,默认实例配比可能需要重新审视——当前GPU实例的CPU配给是否基于过时假设?对终端用户,这意味着现有集群可能存在"免费"的性能提升空间:检查CPU利用率,调整容器资源限制,可能比扩容GPU更划算。

研究团队来自佐治亚理工学院的HPArch实验室,长期关注异构计算系统优化。论文已上传arXiv,编号2603.22774。

一个悬而未决的问题是:当CPU不再是瓶颈,下一个限制大模型推理效率的组件会是什么?内存带宽、网络拓扑,还是尚未被命名的中间层?