打开网易新闻 查看精彩图片
美国芯片禁令刚收紧,一家中国公司就用"降级版"GPU做出了比肩Claude 3.5 Sonnet的模型。更魔幻的是,它直接开源了。
DeepSeek-V3上周发布,在代码和数学基准测试中压过GPT-4o和Claude 3.5 Sonnet一头。训练只用了2048块H800——这是英伟达特供中国的"阉割版"芯片,带宽被砍到H100的一半。团队总成本557万美元,不到Meta训练Llama 3的十分之一。
创始人梁文锋的回应很直接:「我们的目标不是快速商业化,而是推动技术前沿。」这话放在硅谷可能像PR话术,但DeepSeek确实没收钱。API定价是Claude的1/50,模型权重直接挂Hugging Face。
业内现在分两派。一派算经济账:用受限硬件做出顶级性能,说明算力效率还有巨大空间。另一派算政治账:禁令反而逼出了更省钱的训练方法,这剧本华盛顿没料到。
有个细节挺有意思。DeepSeek团队去年还在发论文研究"如何用更少的卡训更大的模型",今年就把论文变成了产品。H800的库存据说快清完了,下一版用什么练,成了新问题。
热门跟贴