先说结论:这次不是吹牛编程能力到底有多强?•全项目理解:一次性看懂数十万行跨文件代码及调用关系•自动化重构:自动进行项目重构、漏洞检测与测试用例生成•设计图转代码:Design2Code 准确率达 92%,响应延迟 4 秒五大技术亮点1. 万亿参数 MoE 架构2. 100万 Token 上下文窗口•可以一次性处理《三体》全集•可以分析整套法律合同•可以理解数十万行代码工程3. Engram 条件记忆机制4. 国产芯片深度适配5. 原生多模态架构产品端的变化对开发者意味着什么?对行业意味着什么?写在最后1API 定价:预计比 Claude 便宜 10-30 倍2上下文窗口:100万 Token,可以处理整个项目3国产算力:华为昇腾深度适配,自主可控

昨天刷到一个消息,整个人都精神了。

DeepSeek 创始人梁文锋在内部沟通中透露,DeepSeek V4 将于 4 月下旬正式发布

更关键的是,泄露的基准测试数据显示:V4 在 HumanEval 编程测试中得分90%,超越了 Claude 的 88% 和 GPT-4 的 82%。

这是国产大模型首次在编程能力上超越硅谷头部玩家

我翻了十几篇报道,把 V4 的关键信息都整理出来了。如果你是开发者,或者关注 AI 行业,这篇文章值得看完。

DeepSeek V4 的消息从去年下半年就开始传,中间跳票了好几次,"被发布"的乌龙新闻也不少。

但这次不一样。

第一,创始人亲自背书。梁文锋在内部沟通中明确说了"4月下旬发布",这是官方层面的确认。

第二,产品端已经动了。4月8日,DeepSeek 上线了"快速模式"和"专家模式",官方明确回应"专家模式是 V4 版本更新的核心功能"。灰度测试界面还出现了"视觉模式"选项,暗示 V4 将具备原生多模态能力。

第三,基准测试数据流出。HumanEval 得分 90%,这个数据来自泄露的内部测试,虽然不是官方发布,但多家媒体都有报道,可信度较高。

简单说,这次是真的要来了。

先看数据。

模型: DeepSeek V4 | HumanEval 得分: 90%

模型: Claude Opus 4.5 | HumanEval 得分: 88%

模型: GPT-4 | HumanEval 得分: 82%

HumanEval 是 AI 编程能力的标准测试,简单理解就是"10道编程题能做对几道"。

V4 能做对 9 道,Claude 能做对 8.8 道,GPT-4 能做对 8.2 道。

差距看起来不大,但这是首次有国产模型在这个测试中超越硅谷头部

更关键的是,V4 不只是"帮你写代码",而是"帮你做软件工程":

有开发者实测,让 V4 写一个 p5.js 模拟小球在旋转六边形内弹跳的程序,结果轨迹精准、物理逻辑严密。

说实话,这个能力已经接近"初级工程师"的水平了。

V4 采用万亿参数混合专家架构,但每次推理只激活约 370 亿参数。

这意味着什么?

同样的能力,十分之一的成本。

速度提升 35 倍,能耗降低 40%,API 价格预计比 GPT-5 和 Claude 便宜 10-30 倍。

这是 V4 最让我震撼的一点。

100万 Token 是什么概念?

对比一下:Claude Opus 4.5 是 200K,GPT-4o 是 128K。V4 是它们的 5-8 倍。

而且检索速度接近 O(1),百万文本细节查询秒响应。

这是一个很聪明的架构创新。

传统 Transformer 把所有知识塞进参数,容易导致长上下文检索衰退。

V4 把"记忆存储"和"推理计算"分开,类似人类大脑的海马体和皮层分工。

结果:记忆准确率达到 98.2%,比 GPT-4o 高 8.5 个百分点。

V4 优先支持华为昇腾、寒武纪、海光等国产 GPU。

通过重写底层算子,国产芯片推理速度提升 35 倍,达到 80 tokens/s。

这意味着什么?

从模型到硬件的全链路自主可控。

V4 不是"文本模型 + 视觉插件"的拼接,而是原生多模态统一架构。

图文音视频映射到同一语义空间,理解更深入,生成更自然。

4月8日,DeepSeek 上线了模式分层设计:

模式: 快速模式 | 用途: 日常对话、即时响应 | 特点: 支持图片、文件识别

模式: 专家模式 | 用途: 复杂推理、数学、编程 | 特点: 深度思考,高峰可能排队

这个设计很聪明。

简单问题用轻量模型,复杂问题用强力模型,既节省成本,又保证质量。

灰度测试界面还出现了"视觉模式"选项,虽然还没全面开放,但暗示 V4 的多模态能力即将落地。

我看了下 V4 的编程能力,有几个关键点:

第一,代码生成更准确。

HumanEval 90% 的得分,意味着大多数编程任务 V4 都能搞定。

第二,项目级理解能力。

100万 Token 上下文,可以一次性理解整个项目,不用分段处理。

第三,自动化程度更高。

自动重构、漏洞检测、测试用例生成,这些以前需要人工做的事情,V4 可以自动完成。

第四,成本更低。

API 价格预计比 GPT-5 和 Claude 便宜 10-30 倍,对高频调用的开发者来说是重大利好。

第一,国产 AI 首次在核心能力上超越硅谷。

编程能力是大模型的"试金石",V4 的突破意味着国产 AI 已经进入世界第一梯队。

第二,从"价格战"转向"能力战"。

以前国产 AI 靠便宜抢市场,现在靠能力说话。

第三,国产算力生态加速成熟。

V4 与华为昇腾深度绑定,意味着国产 AI 产业链正在形成闭环。

DeepSeek V4 的发布,是国产 AI 的一个里程碑。

从 V1 到 V4,DeepSeek 用不到两年时间完成了三次关键跃迁。这次 V4 在编程能力上超越 Claude 和 GPT,标志着国产大模型已经从"追赶者"变成"领跑者"。

4月下旬,V4 正式发布后,我会第一时间实测,给大家带来更详细的评测。

如果你是开发者,建议关注这三点:

如果这篇文章对你有帮助,点个赞、转发给需要的朋友。有问题评论区聊,我看到都会回。

打开网易新闻 查看精彩图片