中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元|基准|大模型|暴打gpt-4o|算法|预训练

新智元报道

编辑：桃子好困

【新智元导读】600万美金训出击败GPT-4o大模型，竟被中国团队实现了！今天，DeepSeek-V3在全网掀起巨大风暴，仅凭671B参数在数学代码性能上，堪比国外大模型Claude 3.5 Sonnet。

一夜之间，来自中国的大模型刷屏全网。

DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。

在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

在数学代码方面，DeepSeek-V3完全碾压GPT-4o。尤其是中文能力，全面领先国外的领先大模型。

就看这闪电般的推理速度，就知道模型有多强了。

值得一提的是，DeepSeek-V3在14.8T高质量token上完成了训练，模型和论文100%开源。

论文地址：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

新模型惊艳出世，彻底掀翻了整个AI圈。业界多位AI大佬，纷纷对此表示震惊，将重点转向其训练成本GPU之上。

论文中，明确提出了DeepSeek-V3仅使用2048块GPU训练了2个月，并且只花费了557.6万美金。

Karpathy惊叹道，「作为参考，要达到这种级别的能力，通常需要约1.6万个GPU的计算集群。不仅如此，当前业界正在部署的集群规模甚至已经达到了10万个GPU。

比如，Llama 3 405B消耗了3080万GPU小时，而看起来更强大的DeepSeek-V3却只用了280万GPU小时（计算量减少了约11倍）。

到目前为止，模型在实际应用中的表现相当出色——不仅在LLM竞技场名列前茅，而且从Karpathy本人的快速测试来看，结果也都很不错。

这说明，即便是在资源受限情况下，模型也能展现出令人印象深刻的研究和工程能力。

这是否意味着前沿LLM不需要大型GPU集群？不是的，但这表明，你必须确保不浪费已有的资源，这个案例很好地证明了在数据和算法方面还有很大的优化空间」。

另外，贾扬清针对推理提出了几点自己的思考：

首先最重要的是，我们正式进入了分布式推理时代。一台单GPU机器（80×8=640G）的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型，但不论如何，都需要分布式推理来保证性能和未来扩展。
即使在单个模型中，也需要关注MoE的负载均衡，因为每次推理只有大约5%的参数激活。
论文中特别提到引入「redundantexpert」概念，正是为了解决这个问题。这已经不再是「一个模型多个副本」的问题、而是「每个模型子模块都有多个副本」，然后独立扩缩容。
输入token很容易实现盈利。根据个人专业判断，需要大量优化才能使输出token盈利或实现收支平衡。但如果我们相信「软件摩尔定律」，这就不是问题：每18个月单token成本减半。
需要进行分块（tile）或块（block）级别的量化。
等硬件支持FP4以后，肯定还有不少可以玩的花样冷知识：FP4乘法实际上就是个16×16的table lookup等等……

中国模型一夜击败GPT-4o，100%开源

DeepSeek-V3不俗表现，是在上一代V2进一步升级和迭代。

在基准测试中，数学领域MATH 500上，DeepSeek-V3拿下了90.2高分，比Claude 3.5 Sonnet、GPT-4o超出10分还要多。

同理，在AIME 2024测试中，DeepSeek-V3也取得了领先优势，飙升近20分。

在代码Codeforces基准上，新模型以51.6分刷新SOTA，比国外大模型高出30分左右。

在软件工程SWE-bench Verified基准上，DeepSeek-V3略显逊色，Claude 3.5 Sonnet以50.8分碾压所有模型。

另外，在多语言能力（MMLU-Pro）方面，V3提升并不明显。知识问答基准（GPQA-Diamond）上，V3也是仅次于Claude 3.5 Sonnet。

如下这张图表，更详细地展示了DeepSeek-V3在各种基准测试中的结果。

53页技术报告中，特比强调了V3的训练成本取得了最大的突破。

团队特意强调了，新模型的完整训练仅需要2.788M个GPU小时。即便如此，它在训练过程中非常稳定，没有遇到过任何不可恢复的loss突增，也没有执行任何rollback操作。

DeepSeek-V3训练成本如下表1所示，这是背后团队通过优化算法、框架、硬件协同设计最终实现的。

在预训练阶段，模型每训练1万亿token仅需要180K个GPU小时，即在配备2048个GPU的集群上只需3.7天。