DeepSeek V4刷屏全网,AI圈都在讨论它的强悍性能,但toB老司机们却偷偷乐开了花。

歇了大半年的DeepSeek一体机终于能重新搞起来了!不过先别高兴太早。

V4对硬件的要求简直变态到让人头皮发麻,90%的企业可能连门槛都摸不到!

打开网易新闻 查看精彩图片

先给个扎心结论:跑Flash版要4卡高显存GPU起步,跑Pro版满血得8×B200或16×H200。

要是想搞百万Token+多并发Agent+PD分离部署,建议直接上32卡以上超节点!

为啥这么高?得先搞懂V4的底子:它分Flash和Pro两个版本,都是MoE模型——总参数大但每次只激活部分专家。

这次开源版还搞了FP4+FP8混合精度:最占空间的专家层用FP4压显存,敏感的注意力层用FP8保精度。

就算这样,Pro版权重占用还得1.0TB-1.4TB,加上KV Cache、运行缓冲这些。

老卡(比如H200不支持FP4)还得按满额算,生产环境更是雪上加霜。

打开网易新闻 查看精彩图片

著名推理引擎SGLang给出了推荐配置:Flash版用4张H200/B200就行。

32×B200才能扛高并发。

说真的,N卡性能确实能让V4飞起,但你懂的——高端N卡的供应问题,普通人想拿到比登天还难。

所以,国产芯片才是咱们企业落地的救命稻草!

打开网易新闻 查看精彩图片

答案是肯定的!DeepSeek V4发布时就cue了昇腾950,菊厂也官宣day0适配。

昇腾950PR有112GB HBM,支持MXFP4(比普通FP4精度更好),算下来:16卡起步跑Pro,24卡更稳。

32卡就能支持百万Token+多并发。菊厂和DeepSeek早有合作,适配优化肯定到位。

接下来昇腾超节点怕是要火!

打开网易新闻 查看精彩图片

能!scaleX40是40卡超节点,有5.62TB+ HBM、28 PFLOPS FP8算力,全互连设计。

虽然没宣传支持FP4,但跑Flash完全没问题,Pro也适合。

要是它能适配V4的注意力优化,绝对是国产一体机的好选择。

打开网易新闻 查看精彩图片

方向上很合适!昆仑芯超节点主打32/64卡、柜内全互联、MoE优化,正好匹配V4。

按P900的96GB显存和FP8算,32卡能稳定跑Pro,64卡就能搞高并发。

当然,具体还得看优化情况,但形态是对的。

打开网易新闻 查看精彩图片

真武810E有96GB HBM2e、700GB/s片间互联,对标H20的话大概率支持FP8。

算下来32卡能稳跑Pro,但阿里的超节点(比如磐久128)太大,可能不适合一般企业。

另外寒王思元MLU590也差不多,32卡就能跑Pro。

打开网易新闻 查看精彩图片

看完这些你会发现,DeepSeek V4 Pro满血落地,传统8卡机根本不够看——要么组团凑卡,要么直接上超节点!

国产芯片虽然配置要求比N卡高,但胜在供应稳定,是企业的务实选择。

你觉得哪家国产芯片能扛起V4的大旗?评论区聊聊你的看法!

转发给身边搞AI的朋友,看看他们的配置够不够格,一起迎接AI大模型的硬件升级浪潮!