千呼万唤,刚刚,DeepSeek V4 预览版发布了。核心信息如下:
⚠️一句话总结:DeepSeek 新一代模型 V4(预览版),最大亮点是通过技术优化,将 100万 token 超长上下文作为所有官方服务的标配。它在推理性能、和Agent能力上全面升级。推理性能为世界顶级,Agent稍逊一筹,但也在全球第一梯队。
⚙️两个版本:
* V4-Pro:旗舰版,Agent 能力、世界知识、数学/STEM 推理均达到开源最优。尤其是推理性能,它在数学、STEM、竞赛型代码的测评中,超越当前所有已公开评测的开源模型。表里能看出在Codeforces 和 Apex 都是第一,但 Agent 能力相对弱一些
* V4-Flash:轻量版,推理能力接近 Pro,简单 Agent 任务和Pro表现相当,价格更低速度更快。
技术核心:
* DeepSeek-V4 开创了全新注意力机制。通过在 token 维度压缩 + DSA 稀疏注意力(DeepSeek Sparse Attention),实现了1M 上下文能力。同时,算力和显存消耗大幅低于传统方案。
* 技术报告里写,能做到这么省主要靠三个技术创新:新的注意力机制(CSA+HCA):把很长的上下文"压缩打包"再处理。改进的残差连接(mHC):让信息在网络各层之间传递得更稳、更准。新的训练优化器(Muon):训练更快、更稳定
API 价格:
*v4-pro 输入(缓存命中 / 未命中)分别为 1 元、12 元,输出价格为24 元。
*v4-flash (缓存命中 / 未命中)低至 0.2 元、1 元,输出 2 元,二者均支持 100 万上下文长度。
在线体验方式:
chat.deepseek.com 或官方 App
模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
技术报告地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
API 文档地址:
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode
热门跟贴