大模型这周疯狂的更新没有结束,最重磅的 DeepSeek V4 突然发布了
刚刚,DeepSeek 正式推出 V4 系列预览版,包含 DeepSeek-V4-Pro(1.6T 总参数 / 49B 激活)与 DeepSeek-V4-Flash(284B 总参数 / 13B 激活)两款模型,均支持 100 万 Token 超长上下文。
架构层面,V4 实现三项关键突破。
混合注意力机制(CSA+HCA)将百万 Token 场景下的推理 FLOPs 降至 V3.2 的 27%,KV Cache 仅需 10%;
流形约束超连接(mHC)解决了超大规模 MoE 的训练不稳定性问题;其三,引入 Muon 优化器加速收敛。模型基于 32T+ 高质量 Token 预训练,并采用"领域专家培养 + 统一模型整合"的两阶段后训练策略。
性能方面,V4-Pro-Max 模式(最大推理档位)在多项基准上刷新开源模型纪录。 LiveCodeBench 达到 93.5%,Codeforces 评分 3206(超越 Gemini-3.1-Pro 与 Claude Opus-4.6);
数学推理 IMO-AnswerBench 89.8%、HMMT 2026 达 95.2%;软件工程 SWE-bench Verified 80.6%;百万 Token 长上下文测试 MRCR 83.5%。
模型同时提供 Non-Think、Think High、Think Max 三档推理模式,兼顾响应速度与推理深度。
DeepSeek 官方表示,V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」,在编程基准上达到顶级水平,并在推理与 Agentic 任务上显著缩小与领先闭源模型的差距。
V4-Flash-Max 则在给予充足思考预算时,可实现与 Pro 版本相当的推理表现。
目前,V4 系列模型权重已在 Hugging Face 和 ModelScope 上架,技术报告同步公开。
APPSO 马上会带来更详细的解读,敬请留意。
模型调用与参数调整方法请参考 API 文档:
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode
DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
热门跟贴