本地跑大语言模型最头疼的是显存。一张能装得下70B参数的显卡,价格往往让人望而却步。但YouTuber Hardware Haven找到了一条野路子:把服务器报废的Nvidia Tesla V100改成消费级显卡,整套下来只要200美元。
这块V100用的是SMX2接口——一种把GPU平扣在主板上的插槽设计,类似CPU的Socket。原厂是给数据中心机架批量部署用的,二手市场上单卡100美元就能拿下。Hardware Haven又花100美元买了张SMX转PCIe x16的转接板,硬是把服务器专用件塞进了普通台式机。
V100本身是2017年的产品,Turing架构,16GB HBM2显存,带宽900GB/s。转接板没有自带散热,而V100的裸板就是一块巨大的散热片。Hardware Haven自己3D打印了一个风道,末端装了一把80mm的猫头鹰风扇往里灌风。供电靠两个8pin PCIe接口,板上还有三个4pin PWM风扇位。转接板没做NVLink的二路SMX槽,那个版本要贵得多。
上机测试用的是Ryzen平台。V100没有视频输出,必须靠CPU核显才能点亮系统。在Ollama里跑gpt-oss-20b模型,这张老卡能跑到130 tokens每秒。作为对比,同平台的Radeon RX 7800 XT——一张2023年的中端游戏卡——在这个任务上被甩在后面。
关键原因在于HBM2。虽然容量只有16GB,但高带宽让V100在推理时喂数据足够快。游戏卡用的GDDR6/GDDR6X在带宽和延迟结构上完全不同,跑AI负载往往是显存瓶颈先卡住。V100这种数据中心退役货,反而在特定场景里找到了第二春。
这套改装的门槛不算低:你得解决散热、供电、无视频输出这三件事,还要在Linux下调试驱动。但200美元的价格锚点,让它成了预算极客的一个有趣选项——尤其是当你只需要一张卡来跑推理,而不是打游戏的时候。
热门跟贴