前段时间做过关于本地部署Deepseek的教程。不记得可以点击下方图片回忆。

《服务器繁忙,请稍后再试。》

其实Deepseek的部署问题还有很多很多,我们对比现在线上的功能可以发现。云端的Deepseek有些可以生成图片甚至文件。还有支持上传文件,识别图片甚至联网搜索等功能。所以要想在本地部署一个完全私有化的Deepseek,还是需要下不少功夫的。但我个人的目标还是想部署一个至少能用,能联网且满足我日常办公辅助的本地完整版Deepseek(或者其他AI)。

OK,那今天来就聊两件比较天马行空的事情,第一件事是当前最有性价比的本地部署671B满血版(无蒸馏,混合量化)的配置。第二件事就是我们穷人最该关注的,有没有什么方法便宜搞DS之主板篇,毕竟穷人屁事多,所以我们好事多磨。

本地部署性价比方案

如果说当前想要本地部署完整版本的话,CPU推理无疑是最具性价比的方案。考虑到当前最多通道的AMD CPU搭配的主板还算可以接受的范围。所以优选还是AMD EPYC。因为是性价比方案,所以当然用一些自己搭建的方案更好,因此这里就不考虑准系统了(虽然其实准系统才是更高性价比的选择,但十个有九个是机柜)。我们还是用标准的ATX作为方案。

CPU:

CPU首选EPYC里最便宜的CPU,我这里选择16C/32T的3.65GHz 9135是明显包含个人情感的,更省钱其实完全可以选择9015。毕竟对于671B的模型,大部分都是带宽问题。甚至部分计算密集类型的区域可以搬移到GPU计算。如果真有人买了这个配置我再细致摊开来讲。总之CPU的预算在1W内没什么问题。

主板:

选超微算是一个通用解法。不过超微最大的毛病就是容易过热,所以散热问题是必须要注意的。需要留意的是H13SSL-N需要V2才能支持9005 CPU,所以要指定与店家要求2.0版本。不过近期有个三方9004主板正在准备实现9005的支持,而且价格在4000左右。可以期待一下,如果有替换就完美了。即使真的找不到支持,也可以选择MZ33-AR1。就是版型基本拒绝了好显卡的可能。

内存:

5代EPYC支持6000内存,但是这个规格的内存又难找,所以可以直接上6400的内存。价格稍微多找找,一条能便宜100多点。

散热:

散热的选择就不用担心了,因为CPU不是很多核的处理器, 更何况是巴掌那么大的CPU,散热更好,区区250W以内的CPU用六热管足矣。这里选择一些入门的服务器散热即可。

其他诸如硬盘,机箱,电源就不用说了。因为走的是ATX路线,所以传统的家用装机配置都可以用上。如果不上显卡,甚至600W的电源都足矣。

不过根据我过去组装服务器的经验,以上的配置十有八九会出现无货,或者需要加钱等问题。主要就是主板。那此时有两个选择,一个是向下降级到9004级别,接近规格的9124只需要4000左右。此时主板也可以找一些三线SP5主板,价格可以再便宜1000。内存也可以换成DDR5-4800,每根便宜400。代价就是内存带宽损失20%,但对于不到两位的Token/s来说,似乎又可以接受。总之抛开一些通用件,核心件的价格在3W-4.5W。

本地部署暗黑性价比方案(全选可以看清)

当然说是这么说,其实最近有一个歪门邪道的东西诞生——扩容显卡。通过换显存颗粒的方式把原来的显卡翻倍,甚至四倍。而最近就诞生了一张邪恶显卡,RTX 4090 96G。

按照最低部署的要求,理论只需要5张4090 96G就可以实现671B的部署。但是如果要考虑后续消耗,加多一张或者满8张也没问题。目前4090 96G的价格还没有,不过参考48G的价格,满打满算3W甚至5W,也比H100 80G便宜不少。那么就此我们就可以选择一个全新的配置。

准系统:

这里可以直接上8卡准系统,除了注意要PCI-E 4.0以外,其他平台任选。G292-Z20主要是2U,所以可以省很多空间。

CPU:

因为准系统用的是7002/7003,所以选一些性价比高的CPU就行,比如7K62之类的。这个自由度很高。

内存:

同理,DDR4-3200的内存,8条插满即可,32G略小,64G尚可。不过因为DDR4的2666和3200差了一倍的价格,所以个人认为保证容量优先,这样还可以部署一些小东西在CPU上。当然你真要速度,也可以32G-3200,反正价格和64G-2666一样。

整套平台下来预计将在15-25W之间,能带来近2倍的性能提升。当然功耗也得暴涨。但是为了响应速度,也没办法。

穷人(垃圾佬)爱折腾环节

好了,终于到我最喜欢的环节了。正所谓人没钱就需要靠脑力换金金金。即使用性价比方案,一台能完整部署671B的机子也要3-5W。这个预算我相信大部分人也没有……还是说就我没有?

总之我们需要明确需求。要实现671B的部署,我们需要满足以下条件:

  • 能够放进671B的空间

  • 可以接受的运行速度

其中能够放进671B的空间,我们可以进一步拆分出几层的速度区间。分为显卡——内存——硬盘。

而可接受的运行速度,基本与部署空间的存取速度有关(不完全相关,只是超大模型得先满足放得快再考虑算得快)。如果考虑当前K-Transformer,混合量化等优化策略,可以弄出很多不同的操作方法。但我们先暂时不考虑这些优化方法。

我们以当前8块H100 SMX5(带宽3350GB/s,带NVLink)部署671B模型能实现约25Token/s为参考点。十分之一的带宽可能只有不到5Token/s。当然这个数值很难评判,可能更低。

但CPU有一个好的地方在于,因为NUMA与互联技术,多路的收益应该会显著优于多卡。因此我们可以充分发挥多路CPU带来多宽带的优势。但目前我暂时还没有进行过多路CPU的性能测试。所以先将单路实现完整部署且性价比较为合理的选择。比如5K-1W预算实现完整部署。其后预留出空间用作可能的升级。比如那张传奇的RTX 4090 96G。

最后,考虑价格,目前想要部署671B内存至少需要64G*8起步。DDR5 64G一根起步2000,DDR4 64G就只要300。分析至此,我们可以确定可选择的平台了。

Intel LGA3647 Xeon 1-2代:

LGA3647的志强1-2代处理器普遍支持DDR4-2666和DDR4-2933。单路127.9GB/s和 140.8GB/s。单路主板普遍在2000元左右,CPU从百元到千元不等,尤其是一些M系列CPU,如过去很火的8124M,现在就是百元一颗的价格。作为入门5K预算的完整部署主机来说非常划算。不过需要注意的是8124M等超205W的CPU要改专用BIOS。所以优先可以看看闲鱼里的永擎(如EPC621D8A)等系列板子。搭配8根内存,5000预算左右搞定。

AMD SP3 7002/7003:

AMD性价比高真的不是吹的。尤其是同代Intel只提供6通道的情况下,AMD能给8通道。7002/7003均支持DDR4-3200。如果内存后续降价了,加内存就很方便了。理论用满DDR4-3200的情况下,7002单路达到204.8GB/s。同理,单路的SP3主板价格都在2000上下,不过CPU会贵不少,要500起步,一些好价可能会在1600左右。而且做AMD SP3的主板厂商并不多,市场上主流销售的除了超微,就是技嘉的板子,而技嘉的板子由于是为2U/4U设计的版型,PCI-E槽会与内存平行,对于普通DIY玩家来说后续加显卡会要多花点心思。所以SP3系列主板属于带刺玫瑰,前期好发育,后期难处理。这种平台是妥妥的需要靠软件优化的。

后话

就在2月27日,Deepseek团队放出了FlashMLA,这是一个能够实现高效运行的内核代码。简单来说就是绕开老黄弯弯绕绕的CUDA,实现超高效能的内核。而且重要的是,这个项目并不拘束于N卡,理论上是可以实现其他平台部署的。这也标志着大模型计算不一定需要大显存大计算力显卡。这对于我们来说是一件好事。

而我目前也大概完成了本地部署Deepseek 次顶配(70B)的最佳性价比方案,并且实现网络接入,图文识别,生成的基本功能,除了模型不是完整的,和网上版Deepseek基本无疑,只是还要测试一下找找问题。后续我会继续放出我的方案。也期待科技真的能渗透到平民百姓。感谢DS学妹开源。