打开网易新闻 查看精彩图片

作者 | 博雯

编辑 | Kino

这个4月大模型领域真是神仙打架。

先是4月16日发布的Claude Opus 4.7,然后是今天前后脚发布的GPT 5.5和DeepSeek V4。

在顶级闭源模型的夹击下,万众瞩目的DeepSeek V4还是保持了一贯的底色:开源和极致性价比。

开源模型链接,58页的技术报告,全都一次性放了出来。现在登录DeepSeek官网或App,就能用最新的DeepSeek V4。

技术报告显示,在Agent能力,世界知识测评,还有数学、STEM、竞赛型代码等多项能力测评中,DeepSeek-V4-Pro领先一众开源模型,性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等顶级闭源模型,但其输入输出的成本,却比这些模型低了好几个数量级。

打开网易新闻 查看精彩图片

那么,DeepSeek V4的实际表现究竟如何呢?我们从代码能力、逻辑推理、长文本处理和风格化写作这几个核心维度,简单进行了一番实测。

打开网易新闻 查看精彩图片

代码能力

DeepSeek官方宣称,目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,而且据评测反馈,DeepSeek-V4的使用体验优于Claude Sonnet 4.5,交付质量接近Claude Opus 4.6的非思考模式,但仍与Opus 4.6思考模式存在一定差距。

在实测中,我先让DeepSeek V4生成一个暗黑、赛博朋克风格的介绍《GTA 6》的交互式网页,它只思考了7秒,就写出了一个融合了霓虹灯效果和粒子故障艺术的交互页面,可以直接在浏览器中运行。

网页的模块化布局非常清晰,不仅视觉审美在线,而且包含了很多细腻的交互细节,比如鼠标悬停在功能卡片上时,会触发边框发光和上浮效果,页面背景还有动态粒子和连线特效。

不过,在另一个更复杂的测试任务中,DeepSeek V4的表现就不那么理想了。

我让它在一个HTML文件中构建一个高度逼真的交互式3D纸质小票,模拟纸张受到拖拽的物理效果。

首次耗时近10分钟,却生成了一张无法交互的空白小票。第二次虽然生成了完整小票,但视觉渲染有问题,小票不仅呈暗黑色、缺乏纸张的质感,而且是倒置的。最核心的拉扯交互效果也不正确,纸张呈现类似高弹史莱姆一样的夸张形变,还有撕裂和穿模。

打开网易新闻 查看精彩图片

推理能力

除了写代码,我们也测试了几道经典的逻辑陷阱题。比如9.9-9.11的计算题,可以看到V4虽然在思考过程中虽然几次走入岔路,但最终还是给到了准确答案。

打开网易新闻 查看精彩图片

再来一个曾经让无数知名AI都翻车的“洗车难题”:我家附近50米就有洗车店,请问我应该怎么去?

对于人来说,这是一个简单到有点好笑的问题,但对于AI来说,它看到“50米”和“出行方式”,就会直接调用统计概率,然后直接输出——短距离出行,步行是最高频的答案。它处理的是信息,而不是现实。

但对于更新后的D老师来说,不仅瞬间就明白了问题背后的深层含义:即这是在检测它是否理解语境,测试逻辑能力,还认为自己要给出一个幽默又合理的回答。

不知道是不是被偷偷调高了幽默值。

打开网易新闻 查看精彩图片

还有值得注意的一点是, 2026年的AI竞争已经不只是模型跑分的事了,而是看谁能更好地嵌入开发者的工作流,谁能更好用。

所以,DeepSeek-V4也专门针对Claude Code、OpenClaw、OpenCode、CodeBuddy这些主流Agent产品做了适配优化,在代码任务、文档生成任务等方面表现都有提升。

打开网易新闻 查看精彩图片

长文本处理与风格化写作能力

就在一年前,百万上下文还是只有顶尖闭源模型才玩得起的量级,普通模型要么是128k,要么也就200k。但现在,DeepSeek官方直接宣布,百万上下文从此将成为DeepSeek所有官方服务的标配。

也就是说,现在你跟DeepSeek-V4聊一次,就算把整个《三体》三部曲都丢进去,它也能记得上下文。

我们简单测了下,找了一本百万字的《平凡的世界》,往里面随机贴了一段《三体》的片段,很快,DeepSeek V4就找到了异常之处和具体内容。

打开网易新闻 查看精彩图片

再丢给它今年新榜内容节的速记,合计超过10万字,要求它整理其中的参赛嘉宾,并从中选出一条它认为有价值的演讲,最终给出一份“AI新榜”风格的稿件。

打开网易新闻 查看精彩图片

几秒钟之后,DeepSeek就给出了两天全场内容节的嘉宾极其title,我们一一核对之后,发现都是正确的,而最终,DeepSeek选择了第二天视频号知名博主萧大业的分享作为选题,并认为“在这样一个技术氛围浓厚的行业大会上,萧老师回归内容创作最本质的人文性和情感性,挺有反思价值的。”

说实话,文笔不错,网上常说的那种矫揉造作的“AI味儿”,或者鉴AI时常用的“破折号、奇怪的比喻、无限纠结于细节”的情况,基本没有出现。

打开网易新闻 查看精彩图片

不过,毕竟“AI新榜”还是以AI领域的选题为主的,于是我们指出了其选题上的问题,而且值得说道的是,在对话中,DeepSeek展现出了一种较为鲜明的立场和情绪,在我们指出后,它在思考中也展现出了相当具有辩证性的思考。

打开网易新闻 查看精彩图片

最终,DeepSeek更换了选题,选择了傅盛的演讲,并表示“对于读者来说,这种带着具体操作细节、成本账目和试错过程的案例,比行业报告上的趋势研判更有参考意义,也更有说服力。”

这是最后的成品,同时也在这里放一篇我们在同一选题下的,大家可以自行对比:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

通篇阅读之后的感觉是,因为上下文增加,所以在输出长文档上的效果好了一些,在其中也展现出了一些不错的操作思路,比如会以比较有噱头的“受伤拄拐”开头,也知道先说案例,再讲技术。

但问题也有,比如比起自己构思一条贯通全文的主线,更倾向于以演讲内容的时间线来排布内容,再比如,D老师经典的“不是……(而)是”的句式仍然很多。

打开网易新闻 查看精彩图片

为什么还不做文生图?

因为DeepSeek属于另一个赛道


为什么DeepSeek还是没有文生图功能?

这确实道出了最普通用户的疑惑,那就是在这个AI产品加速迭代,各路文生图、文生视频、文生音频的功能全都不要钱似得往上堆的情况下,为什么曾经打响了国产AI大模型热战第一枪的DeepSeek,却依旧是简简单单,老老实实,只有一个纯文字生成?

一方面确实是因为,文生图是完全不同的架构,另一方面也是因为,DeepSeek的主赛道确实不在这里。

开源+极致性价比,这才是DeepSeek的核心竞争力。

在这次公布出来的价格上,DeepSeek延续了它当年550万美元的极致性价比神话。两个版本,更专业的V4-Pro百万Token输入12元,输出24元,更小更便捷的V4-Flash输入0.2元,输出2元。

对比一下性能相似的其他顶级模型们:Claude Sonnet 4.6输入3美元,输出15美元;Claude Opus 4.7输入5美元(约36元),输出25美元(约180元);GPT-5.5 Pro输入30美元(约216元),输出180美元(约1296元)……

可以说,完全不是一个数量级。

打开网易新闻 查看精彩图片

而且还没完,DeepSeek官方发布里提到,受限于高端算力,目前Pro的服务吞吐十分有限,下半年华为昇腾950超节点批量上市后,Pro的价格还会大幅下调。

在性能已经逼近顶级闭源模型的情况下,用只有零头的价格,就能用到“接近Opus 4.6非思考模式”的性能,这对于大量中小团队和独立开发者的意义不言而喻。

所以,DeepSeek卖的不是“最强”,也不是“全能”,而是“开源、便宜、且仍在快速进步”。

回头看这半年,DeepSeek的传言不断。从年初开始,V4的发布传闻几经“跳票”,到2月Anthropic指控它蒸馏Claude的技术,闹得沸沸扬扬,再到最近融资消息传了一个版本又一个版本,金额从100亿炒到200亿。

外界的剧本写得跌宕起伏,直到今天,主角才接戏。

发布最后,DeepSeek引用了《荀子·非十二子》的一句话:"不诱于誉,不恐于诽,率道而行,端然正己。"

翻译成人话大概是:别夸我,也别骂我,我有自己的路要走。

当然,定力值不值得鼓掌,最终还是要看产品。V4已经来了,市场会用脚投票。

欢迎分享、点赞、推荐

一起研究AI