2025年1月27日,DeepSeek又崩了,热度不减。

微博热搜:第一

X(Twitter):

苹果App Store(美区):

苹果 App Store(中国区):

英伟达大跌:

DeepSeek 训练成本大降,利空英伟达

训练成本 是 DeepSeek 的一大优势。

在其12月底发布的 DeepSeek-V3中,参数量为671B,激活参数为37B,使用的预训练 token 量为14.8万亿。其多项评测成绩超越了阿里的 Qwen2.5-72B 和 MetadeLlama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

前 OpenAI 联创、知名AI科学家 AndrejKarpathy 表示:DeepSeek-V3整个训练过程仅用了不到280万 GPU 小时,相比之下,Meta 旗下顶尖的开源模型 Llama-3405B 的训练时长是3080万 GPU 小时。如果 DeepSeekV3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。若从成本上进行更直观的对比,假设 H800的租金为每 GPU 小时2美元,DeepSeek-V3的 总训练成本仅为600万美元不到,是 Llama-3405B 超6000万美元训练成本的十分之一不到。