200美元改装数据中心GPU跑大模型，性能反超中端卡|gpu|显卡|服务器|风扇|高带宽内存

本地跑大语言模型最头疼的是显存。一张能装得下70B参数的显卡，价格往往让人望而却步。但YouTuber Hardware Haven找到了一条野路子：把服务器报废的Nvidia Tesla V100改成消费级显卡，整套下来只要200美元。

这块V100用的是SMX2接口——一种把GPU平扣在主板上的插槽设计，类似CPU的Socket。原厂是给数据中心机架批量部署用的，二手市场上单卡100美元就能拿下。Hardware Haven又花100美元买了张SMX转PCIe x16的转接板，硬是把服务器专用件塞进了普通台式机。

V100本身是2017年的产品，Turing架构，16GB HBM2显存，带宽900GB/s。转接板没有自带散热，而V100的裸板就是一块巨大的散热片。Hardware Haven自己3D打印了一个风道，末端装了一把80mm的猫头鹰风扇往里灌风。供电靠两个8pin PCIe接口，板上还有三个4pin PWM风扇位。转接板没做NVLink的二路SMX槽，那个版本要贵得多。

上机测试用的是Ryzen平台。V100没有视频输出，必须靠CPU核显才能点亮系统。在Ollama里跑gpt-oss-20b模型，这张老卡能跑到130 tokens每秒。作为对比，同平台的Radeon RX 7800 XT——一张2023年的中端游戏卡——在这个任务上被甩在后面。

关键原因在于HBM2。虽然容量只有16GB，但高带宽让V100在推理时喂数据足够快。游戏卡用的GDDR6/GDDR6X在带宽和延迟结构上完全不同，跑AI负载往往是显存瓶颈先卡住。V100这种数据中心退役货，反而在特定场景里找到了第二春。

这套改装的门槛不算低：你得解决散热、供电、无视频输出这三件事，还要在Linux下调试驱动。但200美元的价格锚点，让它成了预算极客的一个有趣选项——尤其是当你只需要一张卡来跑推理，而不是打游戏的时候。