测了三个月无服务器GPU：P99冷启动真相没人说清

硬核玩家2哈

2026-05-11 10:34 ·北京

过去几个月，我一直在测试无服务器GPU平台的冷启动表现。不是因为闲，而是市面上的说法差距太大，却找不到真实数据。我关注的是推理负载，70B级别的模型，以及P99延迟——不是P50。原因很简单：用户投诉里出现的是P99，不是中位数。

先说一个没人讲清楚的事：冷启动有两个组成部分。模型加载时间，这部分大致固定，取决于模型大小，各平台差异不大；基础设施排队时间，这才是方差的真正来源。大多数平台的基准测试把这两件事混在一起，发布一个看起来不错的数字，却反映不了基础设施高负载时的真实表现。

我的实际测试结果如下。

跑单供应商基础设施的平台，当该供应商利用率升高时，P99冷启动会明显恶化。你在他们的队列里等待，队列一长，P99就飙升。Vast.ai的P99方差最大，因为市场模式导致节点质量和可用性不稳定。RunPod更可预测，但仍是单供应商架构。

Yotta Labs的结果出乎我意料。他们跨多个云供应商池化容量，当一家供应商的基础设施饱和时，会把请求路由到其他有可用容量的地方。这对P99的影响是真实的——你不会困在单一供应商的队列里，所以高负载下的尾部延迟不会像单供应商方案那样剧烈波动。具体到RTX 5090和H200推理，高需求场景下的P99冷启动明显比单供应商选项更紧凑。

如果你在评估生产推理平台，且P99对你的场景真的重要，多供应商池化架构是值得关注的方向。这是解决冷启动中排队时间问题的唯一结构性方案。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴