H100每小时2美元，怎么租反而更贵了？|快照|比价

你打开那个GPU云租用页面，“H100 每小时2美元”这几个数字跳进眼里，大脑自动弹出一行字：基础设施问题解决。关掉其他十几个价格对比标签，甚至生出一种已经把成本控制住的错觉。直到账单从暗处爬出来，带着持续卷、快照、出站流量那些你根本没点过的收费项，像一个偷偷穿上鞋子的小怪物，把真正的数字推到你面前。

这种时刻我在不同平台上反复撞见，于是整理了一份实操清单。不是为了写研究报告，是把租GPU前该看的坑摆在桌面上，而不是用打开十二个标签假装自己正在研究。我还在维护一个叫 gpu.fund 的实时价格看板，把各供应方的参数拉平了对比，但接下来的这六七个节点，才是租用H100之前最值得花时间盘清楚的。

第一个错，也是最常见的——只盯着标价对比。小时价格当然有用，但那不是最终承担的成本。更贴近现实的估算是这样：实际运行开销 = 单GPU小时价格 × 运行时长 × GPU数量，再加上持久化存储费、带宽或出站流量费、调试空闲时间、以及重试、被抢占或运行失败带来的重复消耗。如果你只做一两个小时的快速实验，调试环境占掉的空闲时间可能比每小时五美分的价差大得多。生产推理下，利用率远比标价重要。而训练任务里，内部互联拓扑一旦不对，那台账面上更便宜的计算节点就会在训练时间上悄悄加倍，把便宜做成真贵。

接着是几乎所有人都会踩到的型号错觉——H100不等于任何一个挂了这个名字的产品。在比价前，得先确认你眼前到底是H100 SXM、H100 PCIe还是H100 NVL，或者页面上写H200、B200、MI300X、A100 80GB，又或者那个营销标签充满可疑信号的“特供版”。显存容量同样关键。如果你的模型24GB显存就能跑，老老实实在RTX 3090、4090甚至5090上调试完再说，别一出场就给H100送钱。只有当确认需要80GB显存时，才去横向对比A100 80GB、H100、H200和MI300X。不要因为数字看起来更大，又没人约束钱包，就默认去选最新的那款英伟达卡。

到了展示价格这一步，不同供应商更是各有各的心眼。有的露出整机报价，有的按单卡标价，还有的页面显示一个像价格的东西，直到你点进去三次，才在角落里发现这台节点插着八张GPU，附加着一份像小妖精写的存储策略。所以，任何比较前先把所有报价都归一化成“每GPU小时”这一个维度。然后分开记录：GPU数量、每卡显存、整机总价、部署区域、磁盘成本、带宽或出站流量条款、以及可抢占还是预留实例。这件事从头到尾都非常枯燥——恰恰是因为它无聊到让人想跳过，所以认真做完的人往往省下最多的钱。

理论上的最低价如果永远排不到，就没有意义。排队等待、资源供应失败、区域库存不足、实例被抢占，这些都会转化成实打实的时间成本和打断代价。花一个小时去排查某个供应方的怪异行为，只为了省下三十美分，这属于发明了“负薪工程学”。对于生产级任务，我宁愿多付一点点费用，换一个启动可靠、库存状态透明的平台。如果是实验性质，便宜的市场类型用起来很过瘾，只需提前接受一个前提：某些时间会消融在机器的迷雾里。

存储和出站流量泄漏是云GPU账单里的经典暗坑。租几小时GPU，用完关机，然后持久化卷、快照、镜像、模型检查点和数据传输费就开始慢慢啃你的信用卡。跑一次任务之前，明确好哪些数据在任务结束后需要保留；跑完之后，删除所有不该继续存在的残留。这件事说起来技术含量深不可测，实际上几乎没人做到。但只要你做了，就自动站到了养卡养出肌肉记忆的那群人的对面。

最后是我的实操缩写清单：先用最便宜、且模型能跑得动的GPU完成全部调试；确认代码和流程没问题之后，再根据算力需求迁移到H100、H200或B200上。先让调试成本发生在几百块就能搞定的卡上，再让真正的训练时长交给高端实例，这种节奏转变，远比花一下午比价更容易在月底账单上看见效果。