70B模型把云厂商打懵了：裸金属GPU凭什么贵3倍还有人抢

我是一个粉刷匠2

2026-04-12 09:57 ·北京

跑过70B参数大模型的人，都懂那种痛——token生成到一半突然卡死，显存报错弹出来，月底账单上 egress 费用（出站流量费）比房租还贵。

Leo Servers 过去一年部署了上百个 GPU 集群，他们的结论很直白：云虚拟机的抽象层，正在勒死 AI 推理的性能。不是云厂商不努力，是大语言模型的计算特性，跟传统 web 服务根本是两套逻辑。

Meta 的 Llama 3 70B，光是加载参数就需要 140GB 显存。生成一个 token，要把这 140GB 在显存里完整过一遍。这跟电商网站处理订单、SaaS 跑数据库查询，完全是不同的内存带宽游戏。

云厂商的"分时复用"，撞上模型的"全量常驻"

云厂商的"分时复用"，撞上模型的"全量常驻"

云计算的核心卖法是资源切片。一台物理机拆成 8 台虚拟机，CPU 时间片轮转，内存按需分配——这套玩法在 web 时代堪称完美。

但大模型不吃这套。Llama 3 70B 的 140GB 权重必须完整驻留显存，少一兆都跑不起来。云 GPU 实例常见的"显存超售"策略，在这里直接翻车。

更隐蔽的是延迟抖动。共享 GPU 集群里，你的推理请求可能排队等了几毫秒，前面邻居突然发起一次大带宽显存操作，你的 token 生成时间就从 50ms 飙到 200ms。对聊天应用来说，用户能感知到那种"顿一下"的卡顿。

Leo Servers 的实测数据：同样的 A100 80GB，裸金属部署的推理延迟 P99 比云虚拟机稳定 3-5 倍。不是硬件不同，是中间那层虚拟化在捣乱。

裸金属的反击：把 GPU 当 GPU 用，而不是当"算力单位"卖

裸金属（Bare Metal）的本质是"去中介化"。云厂商只出租物理机和网络，用户自己装驱动、配环境、调调度。

这对 AI 团队意味着几件事：

显存独占。没有 hypervisor（虚拟机监控程序）切分，140GB 就是 140GB，不会突然被邻居挤占。

PCIe 直通。GPU 跟 CPU 之间的数据通道不再经过虚拟化层，内存拷贝延迟从微秒级降到纳秒级。对需要频繁 CPU-GPU 数据交换的推理场景，这是质变。

网络可预测。裸金属通常搭配 RDMA（远程直接内存访问）网络，多机推理时的节点间通信不走 TCP/IP 协议栈，延迟稳定在 1-2 微秒。云虚拟机的虚拟网卡？轻松差出一个数量级。

代价也明显：运维复杂度陡增，故障排查没有云厂商兜底，扩容需要提前数周规划硬件。Leo Servers 的客户里，愿意付这个成本的多半是模型厂商和头部 AI 应用公司——他们对延迟和成本有极致追求，养得起专门的 infra 团队。

egress 费用的隐形绞杀

egress 费用的隐形绞杀

云账单里最阴险的一项，是出站流量费。大模型推理的输出 token，按字节算都要从云数据中心流出去。

一个日均 1 亿 token 的中等规模应用，按标准云厂商定价， egress 费用每月能吃掉数万美元。裸金属部署配合专线或自有网络，这部分成本可以压到 1/10 以下。

Leo Servers 的定价策略很有意思：他们按整机柜出租，网络流量打包计价。对流量大户来说，这相当于把可变成本变成固定成本，财务模型干净很多。

这种模式正在分化市场。追求敏捷的中小团队继续用云 GPU，按需启停；模型厂商和规模化应用则向裸金属迁移，把推理成本结构从"按 token 计价"转向"按硬件周期计价"。

云厂商的两难：既要又要，还要

云厂商的两难：既要又要，还要

AWS、GCP、Azure 不是不懂裸金属的价值。他们都推出了裸金属 GPU 实例，但定价和供给策略暴露了一个尴尬现实：裸金属业务跟云的核心商业模式存在张力。

云厂商的利润来自资源超售和自动化运维。裸金属把这两件事都削弱了——无法超售，运维责任转移给客户。所以裸金属 GPU 的供给永远紧张，价格通常比同规格虚拟机贵 2-3 倍，且需要长期合约锁定。

这给了 Leo Servers 这类专业裸金属供应商生存空间。他们不碰虚拟化层，专注做 GPU 集群的物理交付和网络优化，把单一品类做深。

一个值得观察的信号：NVIDIA 的 DGX Cloud 也在尝试混合模式——底层是裸金属，上层封装成"类云"体验。这或许是未来的中间路线：对终端用户保留易用性，对性能敏感层剥离虚拟化开销。

回到那个原始问题：70B 模型到底该跑在哪？

Leo Servers 的客户反馈里，有个细节反复出现——迁移到裸金属后，团队终于敢在 prompt 里放长上下文了。云虚拟机时代，长上下文意味着显存压力和不可预测的 OOM（内存溢出），工程师被迫在用户体验和系统稳定性之间做妥协。裸金属把这个选择题取消了。

当你的模型大到一定程度，"云原生"反而成了包袱。这个悖论，大概是 AI 基础设施最有趣的认知反转之一。

你的团队现在卡在哪个阶段——还在跟云厂商的显存配额斗智斗勇，还是已经开始盘算裸金属的折旧摊销了？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴