当越来越多 AI 开发者开始抱怨“云 GPU 太贵”时,有人干脆选择了自建服务器。但自己搭服务器,到底比租云 GPU 便宜多少?本文作者算了一笔账,并分享切身体验。
作者 | Rosmine 编译 | 苏宓
出品 | CSDN(ID:CSDNnews)
2024 年,Rosmine 选择辞去了在 FAANG 的工作,开始成为一名独立研究员。
为了开展研究,他自己搭建了一台名为 “grumbl” 的服务器,配备了 6 张 6000 Ada GPU。
这篇文章记录了这台服务器的搭建过程、遇到的问题,同时解答一个核心问题:自己搭建服务器,还是租用云 GPU 更划算?
Rosmine 解释称,这个服务器之所以叫“grumbl”,是因为他总是拼不对“GPUs”这个单词。
把 GPU 当作一种投资
Rosmine 透露,这台设备总共花费他 4.8 万美元,听起来价格不菲,但远低于辞职带来的收入损失。
对他而言,只要更强大的 GPU 能让他的研究工作比使用小型机器时提前两个月取得成果,那么购买更强的服务器就是值得的。
因此,他最终决定:在自己公寓供电和环境条件允许的范围内,直接买一台性能最强的服务器。
「CSDN 读者专属福利」,免费领100小时云算力
支持主流 AI 框架与模型部署
咖啡领取链接:https://s.csdn.cn/4nPsOp
GPU 的选择
Rosmine 参考了另一位研究员 Tim Dettmers 的 GPU 选型指南,综合考量之下,把 GPU 候选范围缩小到了 A100、H100 和 RTX 6000 Ada。
不过,由于 A100 不支持 FP8,而且推理性能也比新一代 GPU 更慢,而 Rosmine 表示,自己接下来会进行大量推理任务(强化学习 / RL),所以最终只剩下 RTX 6000 Ada 和 H100 两个选择。
在比较了 6000 Ada、H100 和 A100 的价格 / 吞吐比之后,他最终选择了 RTX 6000 Ada。
电力限制
因为 Rosmine 住在公寓里,没有条件升级电路去支持标准的数据中心服务器。
6 张 GPU 的功耗,已经超出了普通公寓单路电路所能承受的范围,所以他不得不使用两台电源,并且把它们分别接到两个不同回路的插座上。
然而,如果你去 Google 搜索“把一台 PC 接到多个插座”,你会看到大量警告,仿佛只要考虑这种方案,人立刻就会原地爆炸。
因此,为了规避潜在风险,Rosmine 专门聘请了一位专业的 PC 装机工程师,以确保整套系统在电力与硬件层面都是安全可靠的。虽然这比完全自行组装的成本更高,但相比因操作失误而引发严重事故(例如损坏设备甚至危及居住环境),这一投入显然更为稳妥。
颇具讽刺意味的是,尽管整套设计最初都是围绕公寓的供电限制来完成的,但最终,这台名为 “grumbl” 的 GPU 服务器还是被迁移到了他父母家的地下室——在那里,他实际上可以直接对电路进行升级,最初的诸多限制也随之不再成立。
自建 GPU 服务器 vs 租云服务?
那么,到底是自己购买 GPU 更划算,还是直接租用云厂商的 GPU 更合适?
对此,Rosmine 采用了一个相对直接的方法进行评估:统计自己实际使用 GPU 的情况,并与租用同等算力的云服务成本进行对比。
在 2024 年,按照当时的 GPU 租赁价格计算,他大约需要让这些 GPU 保持接近 85% 以上的利用率,并持续运行约一年时间,才能与云端租赁成本基本持平。
这一结果看起来并不难达到,但如果进行更完整的分析,还必须将电费纳入计算,同时还要考虑一个现实因素:随着更高性能 GPU 不断推出,同等算力在云端的租赁价格也会逐步下降。
为了更精确地统计,他专门编写了一个脚本,每分钟记录一次每张 GPU 的使用情况。同时也记录了整机功耗(瓦数),以便进一步计算实际电力成本。
在这份对比分析中,他仅采用了云服务的按需(on-demand)计费价格作为参考。
当然,云厂商也提供 6 至 12 个月的预留实例方案,但在他看来,这类方案的意义有限——因为其折扣幅度并不显著,与直接购买整台服务器相比差距不大,而后者的优势在于 GPU 最终仍然完全归自己所有。
如果不为 “grumbl” 配备显示器,从某种意义上说也是一种浪费——毕竟这台服务器最多支持同时连接 24 台显示器。甚至理论上,他还可以将其改造成一个迷你版的 “Las Vegas Sphere(拉斯维加斯球幕)”。
GPU 使用率时间图
为衡量 GPU 的实际使用情况,Rosmine 对每一张 GPU 进行了统计:记录其每天“至少被使用一次”的小时数。
他认为,这种统计方式与云 GPU 的计费逻辑较为接近——在云端场景中,如果一台服务器空闲时间不足一小时,通常也不会选择停止并重新启动实例。
从对比角度来看,这种方法对云租赁模型甚至是相对“宽松”的,因为它默认用户可以独立启停每一张 GPU。但在实际使用中,Rosmine 表示:“我很多空闲时间都发生在‘并行跑多个实验’的时候:其中某个实验提前结束或失败了,但其他实验还在继续运行。如果我真的在租云服务器,我也不会因此就把整台机器停掉。”
需要说明的是,这里的统计指标是 GPU 的“使用情况”,而非训练效率。即使某张 GPU 的利用率仅为 10%,只要在该小时内有被使用过,也仍然会被计为活跃状态。(即便在云端,这类代码效率水平也不会发生变化。)
下方为 GPU 使用率随时间变化的统计图表:
从图中可以看到,期间共有 3 次服务器因维护而停机。
每一次停机都带来较高的不确定性压力,因为无法判断问题来源:是单个 PCIe 转接卡(riser)故障,还是更严重的系统性问题,例如 GPU 损坏。
Rosmine 称,从 2025 年 6 月起,GPU 使用率出现明显上升趋势。在此之前,他主要运行的是小规模实验,开发周期与实验周期接近,因此实验间存在较多空闲时间。
而在 2025 年 6 月之后,Rosmine 开始推进一个需要大量算力的项目,大部分 GPU 持续用于实验运行,仅保留 1–2 张用于开发调试。
从整体统计来看,GPU 平均利用率为 76%。若仅统计 2025 年 1 月 1 日之后的数据,则利用率为 85%。
对此结果,他本人表示略感失望,因为实际情况是实验几乎 24/7 持续运行,并且始终存在待执行的任务队列,原本预期利用率应轻松超过 95%。
最终计算
在成本测算中,Rosmine 采用的方法是:先按每天的云端租赁价格计算单价,再乘以当日实际使用的 GPU 小时数,逐日累加得出总成本。
由于缺乏云服务商的历史 API 价格记录,他只能根据带时间戳的公开资料,对历史价格进行反向估算。
基于已记录的功耗数据,他进一步计算出整体电费成本约为 3000 美元,折合每月约 125 美元。
综合上述所有因素,截至 2026 年 3 月 13 日,如果使用等效算力的云 GPU,其租赁总成本将约为 6.8 万美元。因此,相较之下,他目前累计节省约 1.7 万美元。
在这一计算结果下,这套 GPU 系统已经实现回本。按照当前市场价格估算,从此之后,每天仍可节省约 90–105 美元的计算成本。
真正的“最终结论”
Rosmine 表示,购买这台服务器的出发点从来不是为了节省成本,而是为了构建一些“有意思的东西”。
在这个过程中,他投入了大量时间去尝试高风险、高回报的实验,并经历了多次失败。
但最终,他确实取得了一些成果,并声称自己解决了大语言模型中的一个关键问题。
他计划在下周正式发布相关成果,以验证这究竟是一次真正的技术突破,还是又一次“LLM 精神错乱(LLM psychosis)”式的误判。
建议
Rosmine 在分享中提醒,对于自建高端 GPU 服务器这一类方案,需要非常谨慎,因为其中很容易出现成本高昂的错误。他原本认为,由于公寓无法升级电路,因此无法使用标准数据中心服务器,只能采用“双电源分别接入不同电路”的方式。正是基于这一限制,他选择了一块 GPU 互联速度较慢的主板。这种配置非常适合并行运行大量小型实验(也是他的主要使用场景),但在需要跨 GPU 切分模型的任务中表现较差。
在多次故障中,相当一部分问题来自 PCIe riser 相关组件,而 Nathan Odle 关于 riser 的调查与分析在排查过程中提供了重要帮助。
他也提到,自己的消费习惯更接近“预算紧张的研究生”,这套设备实际上是多年积攒后的投入。尽管自己处于可以承担这类高风险支出的相对幸运位置,但他并不建议所有人都复制同样的方案。
在他看来,即使只是使用 Google 的 Google Colab 订阅、较便宜的云 GPU,或小型本地设备,同样可以完成高质量的研究工作。
从“租用 GPU”到“拥有 GPU”,心理层面的变化非常明显。在租用模式下,每一次实验都会产生直接成本,因此需要不断权衡是否值得运行;而在拥有设备之后,不运行实验反而会产生“资源闲置的损失感”。同时,也避免了频繁启动和停止云实例带来的麻烦。
此外,这份分析并未计入时间成本,而搭建与维护整套服务器本身就消耗了大量精力。
在保险方面,他曾尝试将该设备纳入租房保险,但保险公司并不接受这一方案,最终只能改为商业保险覆盖。
最后他表示,如果重新选择一次,他可能不会再进行这种高度定制化的组装,而是直接购买标准数据中心服务器并将其托管在机房。不过,这样也意味着会失去偶尔与 “grumbl” 打招呼的那种个人化体验。
来源:https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/
免费领取 100 小时 AI 算力|CSDN 读者专属
加入 AI 开发者计划获取:
✅ AI 算力资源✅ 官方技术社群✅ Workshop 与 AI Academy✅ 开发者专属福利
立即扫码,前 50 名额外领取「瑞幸咖啡」
咖啡领取链接:https://s.csdn.cn/4nPsOp
热门跟贴