智东西作者   陈骏达编辑   心缘
打开网易新闻 查看精彩图片
智东西作者 陈骏达编辑 心缘

智东西4月24日报道,今天,DeepSeek-V4开源并火速冲上Hugging Face模型榜首,号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果,我们进行了多维度的深度体验。

打开网易新闻 查看精彩图片

▲DeepSeek-V4-Pro登顶Hugging Face热榜第一(图源:Hugging Face)

我们的这次实测累计消耗超过1000万token。总体来看,DeepSeek-V4系列,尤其是Pro版本,展现出强大的自主规划与执行能力;但在部分极限任务和轻量级场景中,也存在一些有趣的短板。以下是我们提炼出的核心体验要点:

(1)智能体编程提升明显,长程任务能力惊艳:DeepSeek-V4-Pro能够连续自主编程60分钟以上,无需人工干预,完成复杂的数据库设计和安卓模拟器开发等工程任务,展现出强大的长程规划、自我纠错和工具调用能力。

(2)复杂推理有亮点也有短板:模型在海龟汤等逻辑题上表现出色,但在IMO数学难题和部分轻量级测试中陷入死循环或给出错误答案,推理稳定性还有提升空间。

(3)轻量级任务表现意外翻车:简单问题(如洗车店问题)上,Pro版有时反而因为“过度思考”无法给出正确答案,而Flash版更为直接高效。

(4)价格有所上涨,但缓存机制降低部分成本:相比DeepSeek-V3.2,V4系列API价格上调,但在长任务中借助缓存,总账单的增长没有API涨幅那么明显。

以下是我们的完整实测:

一、智能体编程能力明显提升,实测连续干活60分钟无需干预

DeepSeek-V4的官方博客,尤其强调模型的Agentic Coding能力。这次实测中,我们让DeepSeek-V4-Pro与Claude Code打配合,执行了两个较为复杂的工程任务。

任务1:连续编程60分钟,打造完整记账系统

在数据库设计任务中,我们的提示词并未给模型提供过多的约束,这考察了其自主规划任务的能力

拿到任务后,DeepSeek-V4-Pro先是思考了一会儿,然后输出了一个完整的数据库设计方案,包含8个核心功能模块和6张数据表,目标是实现记账、流水统计等功能。

打开网易新闻 查看精彩图片

此外,它还规划了开发流程,除了打造每个具体组件之外,DeepSeek-V4-Pro也计划在开发结束后自主进行验证,并列出10项验证的清单,考虑得较为周到。

之后,我们就完全放手让DeepSeek-V4-Pro自主执行任务,它连续编程了接近60分钟,期间没有出现中断或者死循环,也没有遗漏关键步骤,完全按照此前的规划执行。

DeepSeek-V4-Pro的开发结果如下,从前端的角度来看,这一数据库在美感层面稍有欠缺,但所有核心功能都运转正常。我们试着添加了一条数据,没有出现报错信息。

在前端中,用户可以直接完成各种自定义操作,比如新增分类,删改数据等等。而此前我们体验的部分模型在这种任务上可能会把所有设置都写死,这影响了后续的可扩展性。

打开网易新闻 查看精彩图片

查看后端数据库也可以发现,我们在前端输入的新数据可以正常同步到数据库后台,下图最后两行数据,就是手动添加的。这证明前后端之间的数据交互接口与数据传输链路均处于正常、可用的状态。

打开网易新闻 查看精彩图片

总体来看,在复杂数据库开发这种综合考察模型长程规划能力、自我纠错能力、长上下文能力和推理能力的任务上,DeepSeek-V4-Pro的表现可以说远远超过了DeepSeek-V3.2。

不过,需要注意的是,与此前DeepSeek的旗舰级模型相比,DeepSeek-V4-Pro的价格有一定幅度的上涨,跑完上述这一任务的token消耗量大概在20万个左右(大部分为输入token),换算为API账单大概是5块钱,由于缓存机制的介入,价格还算可以接受。

任务2:从零开始打造安卓模拟器,代码、环境全程包办

我们的下一个任务挑战更大:让DeepSeek-V4-Pro从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出DeepSeek-V4-Pro的知识范围了,于是它决定开启联网搜索,查询配套工具、参考架构等等,进行了18次工具调用。

打开网易新闻 查看精彩图片

在足足思考了11分钟之后,DeepSeek-V4-Pro才开始动笔写开发计划,它还自我评价道:“很好,Plan Agent输出了很全面的架构,我现在开始写完整架构。”此时,已经烧了8000多个token。

打开网易新闻 查看精彩图片

不过这种token消耗并非浪费,通过更为全面的规划,DeepSeek-V4-Pro让我们原本极为简单的提示词变得更加体系化,有助于后续的开发。

打开网易新闻 查看精彩图片

最终,DeepSeek-V4-Pro的计划是七步走完成开发,包含框架搭建、图像管理模块设计、VNC显示插件、完整GUI开发、APK安装功能、打包和debug。

打开网易新闻 查看精彩图片

这一项目的规模确实有点大,DeepSeek-V4-Pro连续跑了50多分钟才完成。

打开网易新闻 查看精彩图片

我把后续的调试和环境依赖安装工作也交给了DeepSeek-V4-Pro。执行过程中,DeepSeek-V4-Pro缺了什么资源就会调动搜索工具,直接搜索到对应链接进行下载,也能通过命令行帮我解压、安装相关环境,彻底解放双手。

打开网易新闻 查看精彩图片

DeepSeek-V4-Pro又工作了20多分钟,把活全部都干完了。不过,最后这一模拟器未能成功运行,截至发稿,DeepSeek还在帮我debug。

打开网易新闻 查看精彩图片

二、实测复杂推理,被IMO难题打入死循环

除了智能体、编程能力之外,DeepSeek-V4在推理方面的提升也值得关注。

DeepSeek官方称,DeepSeek-V4-Pro和DeepSeek-V4-Flash两个模型的推理能力接近。在下方这几道逻辑和推理题目中,我们便同时测试了两个模型。

任务1:解答海龟汤,Pro反而比Flash要快?

我们向DeepSeek发送的题目如下。这种题目的考察难点主要不在“谜面有多复杂”,而在于模型如何突破常见的思维惯性。

打开网易新闻 查看精彩图片

先来看看DeepSeek-V4-Pro的解题过程。DeepSeek-V4-Pro用时33秒就便推理出正确答案,思考过程简洁清晰。

打开网易新闻 查看精彩图片

DeepSeek-V4-Flash的推理速度反而更慢,耗时61秒,输出的结果是正确的。DeepSeek-V4-Flash慢的原因是它的思维过程有些冗余,多了不少反复的确认与自我质疑。

打开网易新闻 查看精彩图片

任务2:实测IMO难题,Flash答错、Pro死循环了

解答数学题也是DeepSeek的老传统之一了。此次,DeepSeek称V4-Pro的数学能力在测评中超过了所有已公开测评的开源模型,比肩世界顶级闭源模型。

我们拿去年IMO的题目考了考DeepSeek,关闭联网开启推理,让模型完全靠自己解决问题。这张高糊的题目也考察了DeepSeek网页服务中OCR的能力,我们检查了下,识别结果都是正确的。

打开网易新闻 查看精彩图片

这道题目让两个模型都思考了很久很久,似乎陷入了无尽的循环。DeepSeek-V4-Flash最后给出答案,但是是错误的。DeepSeek-V4-Pro跑了10多分钟,没有明显进展,最后我们手动中断了思考。

打开网易新闻 查看精彩图片

三、轻量级测试题集锦:洗车店问题竟意外难倒V4-Pro

上述案例都比较硬核,接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让DeepSeek-V4-Flash、DeepSeek-V4-Pro在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash给出了正确答案,它觉得这个问题太简单了,语气中满是嘲讽。

打开网易新闻 查看精彩图片

DeepSeek-V4-Pro的思路则有些清奇,它建议我们把车推过去,认为“这种方案对车最好,省去冷启动磨损”,还补充道“推过去是爱车的极致表现,直接开过去是最不划算的方式。”

后来我们又给了DeepSeek-V4-Pro几次机会,它给出正确答案的概率还是高一些,但偶尔还是会因为过度思考而把自己绕进陷阱。

打开网易新闻 查看精彩图片

鹈鹕骑自行车的SVG,DeepSeek-V4-Flash就可以轻松拿下,结果基本完美:

打开网易新闻 查看精彩图片

像是网页小游戏这样的题目,DeepSeek-V4-Pro和DeepSeek-V4-Flash的表现其实都不太好,Flash打造的结果根本无法渲染,Pro打造的虽然渲染成功,但基本不可玩。

打开网易新闻 查看精彩图片

在这些“Toy Case”上,DeepSeek似乎没有花太多精力进行针对性的优化。

结语:DeepSeek-V4,又一次定义开源模型的上限

DeepSeek-V4系列模型确实带来了惊喜,尤其是在智能体编程方面,其长程规划与执行能力令人印象深刻。其基准测试也基本回应了AI圈对DeepSeek的期待,拿下了多项开源SOTA。

DeepSeek的开源不只是把模型权重开放出来,在某种意义上,也是将训练1.6T超大规模模型所需的算力、资金乃至工程经验一并“开源”给了整个社区。这一选择值得敬意。

可以预见,随着后续迭代优化,DeepSeek-V4有望持续进化,成为开源AI生态中一个兼具性能与活力的基座模型。