实测DeepSeek V4：Agent能力领先开源，3D小票翻车，但经典洗车问题终于对了|agent|deepseek|上下文|人工智能模型|小票|洗车问题

作者 | 博雯

编辑 | Kino

这个4月大模型领域真是神仙打架。

先是4月16日发布的Claude Opus 4.7，然后是今天前后脚发布的GPT 5.5和DeepSeek V4。

在顶级闭源模型的夹击下，万众瞩目的DeepSeek V4还是保持了一贯的底色：开源和极致性价比。

开源模型链接，58页的技术报告，全都一次性放了出来。现在登录DeepSeek官网或App，就能用最新的DeepSeek V4。

技术报告显示，在Agent能力，世界知识测评，还有数学、STEM、竞赛型代码等多项能力测评中，DeepSeek-V4-Pro领先一众开源模型，性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等顶级闭源模型，但其输入输出的成本，却比这些模型低了好几个数量级。

那么，DeepSeek V4的实际表现究竟如何呢？我们从代码能力、逻辑推理、长文本处理和风格化写作这几个核心维度，简单进行了一番实测。

代码能力

DeepSeek官方宣称，目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型，而且据评测反馈，DeepSeek-V4的使用体验优于Claude Sonnet 4.5，交付质量接近Claude Opus 4.6的非思考模式，但仍与Opus 4.6思考模式存在一定差距。

在实测中，我先让DeepSeek V4生成一个暗黑、赛博朋克风格的介绍《GTA 6》的交互式网页，它只思考了7秒，就写出了一个融合了霓虹灯效果和粒子故障艺术的交互页面，可以直接在浏览器中运行。

网页的模块化布局非常清晰，不仅视觉审美在线，而且包含了很多细腻的交互细节，比如鼠标悬停在功能卡片上时，会触发边框发光和上浮效果，页面背景还有动态粒子和连线特效。

不过，在另一个更复杂的测试任务中，DeepSeek V4的表现就不那么理想了。

我让它在一个HTML文件中构建一个高度逼真的交互式3D纸质小票，模拟纸张受到拖拽的物理效果。

首次耗时近10分钟，却生成了一张无法交互的空白小票。第二次虽然生成了完整小票，但视觉渲染有问题，小票不仅呈暗黑色、缺乏纸张的质感，而且是倒置的。最核心的拉扯交互效果也不正确，纸张呈现类似高弹史莱姆一样的夸张形变，还有撕裂和穿模。

推理能力

除了写代码，我们也测试了几道经典的逻辑陷阱题。比如9.9-9.11的计算题，可以看到V4虽然在思考过程中虽然几次走入岔路，但最终还是给到了准确答案。

再来一个曾经让无数知名AI都翻车的“洗车难题”：我家附近50米就有洗车店，请问我应该怎么去？

对于人来说，这是一个简单到有点好笑的问题，但对于AI来说，它看到“50米”和“出行方式”，就会直接调用统计概率，然后直接输出——短距离出行，步行是最高频的答案。它处理的是信息，而不是现实。

但对于更新后的D老师来说，不仅瞬间就明白了问题背后的深层含义：即这是在检测它是否理解语境，测试逻辑能力，还认为自己要给出一个幽默又合理的回答。

不知道是不是被偷偷调高了幽默值。

还有值得注意的一点是， 2026年的AI竞争已经不只是模型跑分的事了，而是看谁能更好地嵌入开发者的工作流，谁能更好用。

所以，DeepSeek-V4也专门针对Claude Code、OpenClaw、OpenCode、CodeBuddy这些主流Agent产品做了适配优化，在代码任务、文档生成任务等方面表现都有提升。

长文本处理与风格化写作能力

就在一年前，百万上下文还是只有顶尖闭源模型才玩得起的量级，普通模型要么是128k，要么也就200k。但现在，DeepSeek官方直接宣布，百万上下文从此将成为DeepSeek所有官方服务的标配。

也就是说，现在你跟DeepSeek-V4聊一次，就算把整个《三体》三部曲都丢进去，它也能记得上下文。

我们简单测了下，找了一本百万字的《平凡的世界》，往里面随机贴了一段《三体》的片段，很快，DeepSeek V4就找到了异常之处和具体内容。

再丢给它今年新榜内容节的速记，合计超过10万字，要求它整理其中的参赛嘉宾，并从中选出一条它认为有价值的演讲，最终给出一份“AI新榜”风格的稿件。

几秒钟之后，DeepSeek就给出了两天全场内容节的嘉宾极其title，我们一一核对之后，发现都是正确的，而最终，DeepSeek选择了第二天视频号知名博主萧大业的分享作为选题，并认为“在这样一个技术氛围浓厚的行业大会上，萧老师回归内容创作最本质的人文性和情感性，挺有反思价值的。”

说实话，文笔不错，网上常说的那种矫揉造作的“AI味儿”，或者鉴AI时常用的“破折号、奇怪的比喻、无限纠结于细节”的情况，基本没有出现。

不过，毕竟“AI新榜”还是以AI领域的选题为主的，于是我们指出了其选题上的问题，而且值得说道的是，在对话中，DeepSeek展现出了一种较为鲜明的立场和情绪，在我们指出后，它在思考中也展现出了相当具有辩证性的思考。

最终，DeepSeek更换了选题，选择了傅盛的演讲，并表示“对于读者来说，这种带着具体操作细节、成本账目和试错过程的案例，比行业报告上的趋势研判更有参考意义，也更有说服力。”

这是最后的成品，同时也在这里放一篇我们在同一选题下的，大家可以自行对比：

通篇阅读之后的感觉是，因为上下文增加，所以在输出长文档上的效果好了一些，在其中也展现出了一些不错的操作思路，比如会以比较有噱头的“受伤拄拐”开头，也知道先说案例，再讲技术。

但问题也有，比如比起自己构思一条贯通全文的主线，更倾向于以演讲内容的时间线来排布内容，再比如，D老师经典的“不是……（而）是”的句式仍然很多。

为什么还不做文生图？

因为DeepSeek属于另一个赛道

为什么DeepSeek还是没有文生图功能？

这确实道出了最普通用户的疑惑，那就是在这个AI产品加速迭代，各路文生图、文生视频、文生音频的功能全都不要钱似得往上堆的情况下，为什么曾经打响了国产AI大模型热战第一枪的DeepSeek，却依旧是简简单单，老老实实，只有一个纯文字生成？

一方面确实是因为，文生图是完全不同的架构，另一方面也是因为，DeepSeek的主赛道确实不在这里。

开源+极致性价比，这才是DeepSeek的核心竞争力。

在这次公布出来的价格上，DeepSeek延续了它当年550万美元的极致性价比神话。两个版本，更专业的V4-Pro百万Token输入12元，输出24元，更小更便捷的V4-Flash输入0.2元，输出2元。

对比一下性能相似的其他顶级模型们：Claude Sonnet 4.6输入3美元，输出15美元；Claude Opus 4.7输入5美元（约36元），输出25美元（约180元）；GPT-5.5 Pro输入30美元（约216元），输出180美元（约1296元）……

可以说，完全不是一个数量级。

而且还没完，DeepSeek官方发布里提到，受限于高端算力，目前Pro的服务吞吐十分有限，下半年华为昇腾950超节点批量上市后，Pro的价格还会大幅下调。

在性能已经逼近顶级闭源模型的情况下，用只有零头的价格，就能用到“接近Opus 4.6非思考模式”的性能，这对于大量中小团队和独立开发者的意义不言而喻。

所以，DeepSeek卖的不是“最强”，也不是“全能”，而是“开源、便宜、且仍在快速进步”。

回头看这半年，DeepSeek的传言不断。从年初开始，V4的发布传闻几经“跳票”，到2月Anthropic指控它蒸馏Claude的技术，闹得沸沸扬扬，再到最近融资消息传了一个版本又一个版本，金额从100亿炒到200亿。

外界的剧本写得跌宕起伏，直到今天，主角才接戏。

发布最后，DeepSeek引用了《荀子·非十二子》的一句话："不诱于誉，不恐于诽，率道而行，端然正己。"

翻译成人话大概是：别夸我，也别骂我，我有自己的路要走。

当然，定力值不值得鼓掌，最终还是要看产品。V4已经来了，市场会用脚投票。

欢迎分享、点赞、推荐

一起研究AI

实测DeepSeek V4：Agent能力领先开源，3D小票翻车，但经典洗车问题终于对了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

4G内存跑安全大模型：一个工程师把DeepSeek蒸馏到能装进U

DeepSource把150条规则塞进Python检查

高德汽车出行AI Agent发布：从被动响应到主动理解，智能座舱迈入AI Native时代

AI Agent 到底是什么？原理 + 常见应用一次讲透，小白也能听懂！agent开发

寒武纪Day 0适配DeepSeek V4意味着什么

超实用！连夜实测DeepSeek-V4，我发现它唯一的硬伤是“审美”

DeepSeek-V4和GPT-5.5第一波实测对决，结果出人意料！

DeepSeek V4登顶了！梁文锋把四大技术秘方公开

川普没料到，中国动真格了，黄仁勋罕见发飙，美媒：美国危险了

国产算力机会来了！DeepSeek V4全量开源，华为寒武纪赢麻了

别高估英伟达，别低估DeepSeek

特工男携带重要文件被跟踪，装扮成盲人成功脱险

GPT5.5深夜炸场，这次OpenAI又行了

天天315｜“0糖是商标”，东鹏特饮被骂上热搜股价下跌

财政部：一季度全国财政收入增幅创3年来同期新高

美国移民“金卡”项目启动至今仅一人获批

深圳水官高速4月26日起停止收费

像梁文峰一样诚实

中央发布重磅文件，2026房价现2个信号，大家做好准备！

深圳一人行道仅0.7米宽，通行如过“独木桥”？最新回应：重点督办！