跑过70B参数大模型的人,都懂那种痛——token生成到一半突然卡死,显存报错弹出来,月底账单上 egress 费用(出站流量费)比房租还贵。
Leo Servers 过去一年部署了上百个 GPU 集群,他们的结论很直白:云虚拟机的抽象层,正在勒死 AI 推理的性能。不是云厂商不努力,是大语言模型的计算特性,跟传统 web 服务根本是两套逻辑。
Meta 的 Llama 3 70B,光是加载参数就需要 140GB 显存。生成一个 token,要把这 140GB 在显存里完整过一遍。这跟电商网站处理订单、SaaS 跑数据库查询,完全是不同的内存带宽游戏。
云厂商的"分时复用",撞上模型的"全量常驻"
云计算的核心卖法是资源切片。一台物理机拆成 8 台虚拟机,CPU 时间片轮转,内存按需分配——这套玩法在 web 时代堪称完美。
但大模型不吃这套。Llama 3 70B 的 140GB 权重必须完整驻留显存,少一兆都跑不起来。云 GPU 实例常见的"显存超售"策略,在这里直接翻车。
更隐蔽的是延迟抖动。共享 GPU 集群里,你的推理请求可能排队等了几毫秒,前面邻居突然发起一次大带宽显存操作,你的 token 生成时间就从 50ms 飙到 200ms。对聊天应用来说,用户能感知到那种"顿一下"的卡顿。
Leo Servers 的实测数据:同样的 A100 80GB,裸金属部署的推理延迟 P99 比云虚拟机稳定 3-5 倍。不是硬件不同,是中间那层虚拟化在捣乱。
裸金属的反击:把 GPU 当 GPU 用,而不是当"算力单位"卖
裸金属(Bare Metal)的本质是"去中介化"。云厂商只出租物理机和网络,用户自己装驱动、配环境、调调度。
这对 AI 团队意味着几件事:
显存独占。没有 hypervisor(虚拟机监控程序)切分,140GB 就是 140GB,不会突然被邻居挤占。
PCIe 直通。GPU 跟 CPU 之间的数据通道不再经过虚拟化层,内存拷贝延迟从微秒级降到纳秒级。对需要频繁 CPU-GPU 数据交换的推理场景,这是质变。
网络可预测。裸金属通常搭配 RDMA(远程直接内存访问)网络,多机推理时的节点间通信不走 TCP/IP 协议栈,延迟稳定在 1-2 微秒。云虚拟机的虚拟网卡?轻松差出一个数量级。
代价也明显:运维复杂度陡增,故障排查没有云厂商兜底,扩容需要提前数周规划硬件。Leo Servers 的客户里,愿意付这个成本的多半是模型厂商和头部 AI 应用公司——他们对延迟和成本有极致追求,养得起专门的 infra 团队。
egress 费用的隐形绞杀
云账单里最阴险的一项,是出站流量费。大模型推理的输出 token,按字节算都要从云数据中心流出去。
一个日均 1 亿 token 的中等规模应用,按标准云厂商定价, egress 费用每月能吃掉数万美元。裸金属部署配合专线或自有网络,这部分成本可以压到 1/10 以下。
Leo Servers 的定价策略很有意思:他们按整机柜出租,网络流量打包计价。对流量大户来说,这相当于把可变成本变成固定成本,财务模型干净很多。
这种模式正在分化市场。追求敏捷的中小团队继续用云 GPU,按需启停;模型厂商和规模化应用则向裸金属迁移,把推理成本结构从"按 token 计价"转向"按硬件周期计价"。
云厂商的两难:既要又要,还要
AWS、GCP、Azure 不是不懂裸金属的价值。他们都推出了裸金属 GPU 实例,但定价和供给策略暴露了一个尴尬现实:裸金属业务跟云的核心商业模式存在张力。
云厂商的利润来自资源超售和自动化运维。裸金属把这两件事都削弱了——无法超售,运维责任转移给客户。所以裸金属 GPU 的供给永远紧张,价格通常比同规格虚拟机贵 2-3 倍,且需要长期合约锁定。
这给了 Leo Servers 这类专业裸金属供应商生存空间。他们不碰虚拟化层,专注做 GPU 集群的物理交付和网络优化,把单一品类做深。
一个值得观察的信号:NVIDIA 的 DGX Cloud 也在尝试混合模式——底层是裸金属,上层封装成"类云"体验。这或许是未来的中间路线:对终端用户保留易用性,对性能敏感层剥离虚拟化开销。
回到那个原始问题:70B 模型到底该跑在哪?
Leo Servers 的客户反馈里,有个细节反复出现——迁移到裸金属后,团队终于敢在 prompt 里放长上下文了。云虚拟机时代,长上下文意味着显存压力和不可预测的 OOM(内存溢出),工程师被迫在用户体验和系统稳定性之间做妥协。裸金属把这个选择题取消了。
当你的模型大到一定程度,"云原生"反而成了包袱。这个悖论,大概是 AI 基础设施最有趣的认知反转之一。
你的团队现在卡在哪个阶段——还在跟云厂商的显存配额斗智斗勇,还是已经开始盘算裸金属的折旧摊销了?
热门跟贴