突发！DeepSeek V4 正式发布|deepseek|max|token|上下文|发布|开源模型|推理

大模型这周疯狂的更新没有结束，最重磅的 DeepSeek V4 突然发布了

刚刚，DeepSeek 正式推出 V4 系列预览版，包含 DeepSeek-V4-Pro（1.6T 总参数 / 49B 激活）与 DeepSeek-V4-Flash（284B 总参数 / 13B 激活）两款模型，均支持 100 万 Token 超长上下文。

架构层面，V4 实现三项关键突破。

混合注意力机制（CSA+HCA）将百万 Token 场景下的推理 FLOPs 降至 V3.2 的 27%，KV Cache 仅需 10%；

流形约束超连接（mHC）解决了超大规模 MoE 的训练不稳定性问题；其三，引入 Muon 优化器加速收敛。模型基于 32T+ 高质量 Token 预训练，并采用"领域专家培养 + 统一模型整合"的两阶段后训练策略。

性能方面，V4-Pro-Max 模式（最大推理档位）在多项基准上刷新开源模型纪录。 LiveCodeBench 达到 93.5%，Codeforces 评分 3206（超越 Gemini-3.1-Pro 与 Claude Opus-4.6）；

数学推理 IMO-AnswerBench 89.8%、HMMT 2026 达 95.2%；软件工程 SWE-bench Verified 80.6%；百万 Token 长上下文测试 MRCR 83.5%。

模型同时提供 Non-Think、Think High、Think Max 三档推理模式，兼顾响应速度与推理深度。

DeepSeek 官方表示，V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」，在编程基准上达到顶级水平，并在推理与 Agentic 任务上显著缩小与领先闭源模型的差距。

V4-Flash-Max 则在给予充足思考预算时，可实现与 Pro 版本相当的推理表现。

目前，V4 系列模型权重已在 Hugging Face 和 ModelScope 上架，技术报告同步公开。

APPSO 马上会带来更详细的解读，敬请留意。

模型调用与参数调整方法请参考 API 文档：
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

DeepSeek-V4 模型开源链接：
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告：
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

突发！DeepSeek V4 正式发布