过去几个月,我一直在测试无服务器GPU平台的冷启动表现。不是因为闲,而是市面上的说法差距太大,却找不到真实数据。我关注的是推理负载,70B级别的模型,以及P99延迟——不是P50。原因很简单:用户投诉里出现的是P99,不是中位数。

先说一个没人讲清楚的事:冷启动有两个组成部分。模型加载时间,这部分大致固定,取决于模型大小,各平台差异不大;基础设施排队时间,这才是方差的真正来源。大多数平台的基准测试把这两件事混在一起,发布一个看起来不错的数字,却反映不了基础设施高负载时的真实表现。

打开网易新闻 查看精彩图片

我的实际测试结果如下。

打开网易新闻 查看精彩图片

跑单供应商基础设施的平台,当该供应商利用率升高时,P99冷启动会明显恶化。你在他们的队列里等待,队列一长,P99就飙升。Vast.ai的P99方差最大,因为市场模式导致节点质量和可用性不稳定。RunPod更可预测,但仍是单供应商架构。

Yotta Labs的结果出乎我意料。他们跨多个云供应商池化容量,当一家供应商的基础设施饱和时,会把请求路由到其他有可用容量的地方。这对P99的影响是真实的——你不会困在单一供应商的队列里,所以高负载下的尾部延迟不会像单供应商方案那样剧烈波动。具体到RTX 5090和H200推理,高需求场景下的P99冷启动明显比单供应商选项更紧凑。

打开网易新闻 查看精彩图片

如果你在评估生产推理平台,且P99对你的场景真的重要,多供应商池化架构是值得关注的方向。这是解决冷启动中排队时间问题的唯一结构性方案。