一位开发者近来在Reddit上发出求助,询问是否有“理智方式”来应对Cloud Run上跨区域的AI冷启动。他们的应用遇到了高达20秒的启动延迟——基础设施还在加速准备,用户却只能在空白屏幕前空等,这种体验让团队几近崩溃。该话题下聚集了大量对无服务器GPU失去耐心的工程师,不少人索性退回到自行管理GKE集群的老路,仅仅是为了逃开那让人难以忍受的等待。

这声求助成了一个契机。我决定钻进AI冷启动的机制深处,看看那条“理智路径”到底存不存在。在调研如何在Cloud Run上托管Gemma 4等模型的过程中,我有幸与Cloud Run的高级工程经理Oded Shahar以及Elastic全球平台副总裁Ajay Nair一同登上Google Cloud Next '26的讲台。我们的专题分享就聚焦在用自定义模型构建AI架构。Ajay展示了Elastic的生产级实战策略:同时在17种以上的模型变体上支撑每天数百万次请求,却始终保留Cloud Run“可缩零”的效能优势。

打开网易新闻 查看精彩图片

Ajay在这场分享中传递出一个关键洞察——秘密并不只藏在模型本身,而在于把GPU当作可替代的计算单元来对待,而非需要费心管理的基础设施。那一刻我意识到,压缩冷启动延迟不只是模型优化问题,更是围绕基础设施模式与架构决策的一场设计战役,它直接决定服务是快速、可扩展、安全,还是被用户抛弃。

根据Google Cloud官方的GPU最佳实践,AI冷启动与标准web微服务截然不同:你不是仅仅启动一段代码,而是要把数GB的模型权重灌进一颗专用的物理加速器。整个流程可拆解为四阶段竞赛,任何一步不优化,都会输掉用户耐心。
第一阶段是基础设施配置,约需5秒。Cloud Run分配物理GPU并注入预装好的NVIDIA驱动,由于驱动由Google管理,你不必把Dockerfile撑得臃肿。
第二阶段是块级容器镜像流式传输,耗时1到2秒。Cloud Run采用镜像流式加载,只抓取启动必需的块,这意味着容量15GB的CUDA镜像也能像轻量Node.js应用一样快速就绪。
第三阶段是推理引擎初始化,通常5到15秒。这个阶段是vLLM、Ollama等推理引擎的预热过程,属于重度CPU任务,也是多数人在无意中被严重限流的环节。
最后第四阶段,模型加载与显存传输,这是整场竞赛的最后一道栏——将模型权重从存储搬运到GPU内存中。不同于CPU为王的传统web应用,这里的首要瓶颈是GPU内存。一旦模型权重无法完全容纳于显存,性能就会因频繁置换到较慢的系统内存而大幅下滑。

在那次分享中,我们根据Google Cloud关于GPU推理的官方文档,梳理出了构建“理智”生产环境的若干关键杠杆。第四阶段作为最终瓶颈,尤其需要优先选择恰当的部署选项。通过合理调度与镜像优化,已有团队成功将端到端冷启动压缩到数秒内,在保持自动缩零的灵活性的同时,让AI服务第一次真正具备无服务器架构应有的灵敏身段,而那20秒的等待也终于不再是默认代价。