实测在DeepSeek-V4上烧1000万token，我发现了3个惊喜和1个意外|deepseek|token|人工智能模型|智能体|编程

智东西4月24日报道，今天，DeepSeek-V4开源并火速冲上Hugging Face模型榜首，号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果，我们进行了多维度的深度体验。

▲DeepSeek-V4-Pro登顶Hugging Face热榜第一（图源：Hugging Face）

我们的这次实测累计消耗超过1000万token。总体来看，DeepSeek-V4系列，尤其是Pro版本，展现出强大的自主规划与执行能力；但在部分极限任务和轻量级场景中，也存在一些有趣的短板。以下是我们提炼出的核心体验要点：

（1）智能体编程提升明显，长程任务能力惊艳：DeepSeek-V4-Pro能够连续自主编程60分钟以上，无需人工干预，完成复杂的数据库设计和安卓模拟器开发等工程任务，展现出强大的长程规划、自我纠错和工具调用能力。

（2）复杂推理有亮点也有短板：模型在海龟汤等逻辑题上表现出色，但在IMO数学难题和部分轻量级测试中陷入死循环或给出错误答案，推理稳定性还有提升空间。

（3）轻量级任务表现意外翻车：简单问题（如洗车店问题）上，Pro版有时反而因为“过度思考”无法给出正确答案，而Flash版更为直接高效。

（4）价格有所上涨，但缓存机制降低部分成本：相比DeepSeek-V3.2，V4系列API价格上调，但在长任务中借助缓存，总账单的增长没有API涨幅那么明显。

以下是我们的完整实测：

一、智能体编程能力明显提升，实测连续干活60分钟无需干预

DeepSeek-V4的官方博客，尤其强调模型的Agentic Coding能力。这次实测中，我们让DeepSeek-V4-Pro与Claude Code打配合，执行了两个较为复杂的工程任务。

任务1：连续编程60分钟，打造完整记账系统

在数据库设计任务中，我们的提示词并未给模型提供过多的约束，这考察了其自主规划任务的能力

拿到任务后，DeepSeek-V4-Pro先是思考了一会儿，然后输出了一个完整的数据库设计方案，包含8个核心功能模块和6张数据表，目标是实现记账、流水统计等功能。

此外，它还规划了开发流程，除了打造每个具体组件之外，DeepSeek-V4-Pro也计划在开发结束后自主进行验证，并列出10项验证的清单，考虑得较为周到。

之后，我们就完全放手让DeepSeek-V4-Pro自主执行任务，它连续编程了接近60分钟，期间没有出现中断或者死循环，也没有遗漏关键步骤，完全按照此前的规划执行。

DeepSeek-V4-Pro的开发结果如下，从前端的角度来看，这一数据库在美感层面稍有欠缺，但所有核心功能都运转正常。我们试着添加了一条数据，没有出现报错信息。

在前端中，用户可以直接完成各种自定义操作，比如新增分类，删改数据等等。而此前我们体验的部分模型在这种任务上可能会把所有设置都写死，这影响了后续的可扩展性。

查看后端数据库也可以发现，我们在前端输入的新数据可以正常同步到数据库后台，下图最后两行数据，就是手动添加的。这证明前后端之间的数据交互接口与数据传输链路均处于正常、可用的状态。

总体来看，在复杂数据库开发这种综合考察模型长程规划能力、自我纠错能力、长上下文能力和推理能力的任务上，DeepSeek-V4-Pro的表现可以说远远超过了DeepSeek-V3.2。

不过，需要注意的是，与此前DeepSeek的旗舰级模型相比，DeepSeek-V4-Pro的价格有一定幅度的上涨，跑完上述这一任务的token消耗量大概在20万个左右（大部分为输入token），换算为API账单大概是5块钱，由于缓存机制的介入，价格还算可以接受。

任务2：从零开始打造安卓模拟器，代码、环境全程包办

我们的下一个任务挑战更大：让DeepSeek-V4-Pro从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出DeepSeek-V4-Pro的知识范围了，于是它决定开启联网搜索，查询配套工具、参考架构等等，进行了18次工具调用。

在足足思考了11分钟之后，DeepSeek-V4-Pro才开始动笔写开发计划，它还自我评价道：“很好，Plan Agent输出了很全面的架构，我现在开始写完整架构。”此时，已经烧了8000多个token。

不过这种token消耗并非浪费，通过更为全面的规划，DeepSeek-V4-Pro让我们原本极为简单的提示词变得更加体系化，有助于后续的开发。

最终，DeepSeek-V4-Pro的计划是七步走完成开发，包含框架搭建、图像管理模块设计、VNC显示插件、完整GUI开发、APK安装功能、打包和debug。

这一项目的规模确实有点大，DeepSeek-V4-Pro连续跑了50多分钟才完成。

我把后续的调试和环境依赖安装工作也交给了DeepSeek-V4-Pro。执行过程中，DeepSeek-V4-Pro缺了什么资源就会调动搜索工具，直接搜索到对应链接进行下载，也能通过命令行帮我解压、安装相关环境，彻底解放双手。

DeepSeek-V4-Pro又工作了20多分钟，把活全部都干完了。不过，最后这一模拟器未能成功运行，截至发稿，DeepSeek还在帮我debug。

二、实测复杂推理，被IMO难题打入死循环

除了智能体、编程能力之外，DeepSeek-V4在推理方面的提升也值得关注。

DeepSeek官方称，DeepSeek-V4-Pro和DeepSeek-V4-Flash两个模型的推理能力接近。在下方这几道逻辑和推理题目中，我们便同时测试了两个模型。

任务1：解答海龟汤，Pro反而比Flash要快？

我们向DeepSeek发送的题目如下。这种题目的考察难点主要不在“谜面有多复杂”，而在于模型如何突破常见的思维惯性。

先来看看DeepSeek-V4-Pro的解题过程。DeepSeek-V4-Pro用时33秒就便推理出正确答案，思考过程简洁清晰。

DeepSeek-V4-Flash的推理速度反而更慢，耗时61秒，输出的结果是正确的。DeepSeek-V4-Flash慢的原因是它的思维过程有些冗余，多了不少反复的确认与自我质疑。

任务2：实测IMO难题，Flash答错、Pro死循环了

解答数学题也是DeepSeek的老传统之一了。此次，DeepSeek称V4-Pro的数学能力在测评中超过了所有已公开测评的开源模型，比肩世界顶级闭源模型。

我们拿去年IMO的题目考了考DeepSeek，关闭联网开启推理，让模型完全靠自己解决问题。这张高糊的题目也考察了DeepSeek网页服务中OCR的能力，我们检查了下，识别结果都是正确的。

这道题目让两个模型都思考了很久很久，似乎陷入了无尽的循环。DeepSeek-V4-Flash最后给出答案，但是是错误的。DeepSeek-V4-Pro跑了10多分钟，没有明显进展，最后我们手动中断了思考。

三、轻量级测试题集锦：洗车店问题竟意外难倒V4-Pro

上述案例都比较硬核，接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让DeepSeek-V4-Flash、DeepSeek-V4-Pro在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash给出了正确答案，它觉得这个问题太简单了，语气中满是嘲讽。

DeepSeek-V4-Pro的思路则有些清奇，它建议我们把车推过去，认为“这种方案对车最好，省去冷启动磨损”，还补充道“推过去是爱车的极致表现，直接开过去是最不划算的方式。”

后来我们又给了DeepSeek-V4-Pro几次机会，它给出正确答案的概率还是高一些，但偶尔还是会因为过度思考而把自己绕进陷阱。

鹈鹕骑自行车的SVG，DeepSeek-V4-Flash就可以轻松拿下，结果基本完美：

像是网页小游戏这样的题目，DeepSeek-V4-Pro和DeepSeek-V4-Flash的表现其实都不太好，Flash打造的结果根本无法渲染，Pro打造的虽然渲染成功，但基本不可玩。

在这些“Toy Case”上，DeepSeek似乎没有花太多精力进行针对性的优化。

结语：DeepSeek-V4，又一次定义开源模型的上限

DeepSeek-V4系列模型确实带来了惊喜，尤其是在智能体编程方面，其长程规划与执行能力令人印象深刻。其基准测试也基本回应了AI圈对DeepSeek的期待，拿下了多项开源SOTA。

DeepSeek的开源不只是把模型权重开放出来，在某种意义上，也是将训练1.6T超大规模模型所需的算力、资金乃至工程经验一并“开源”给了整个社区。这一选择值得敬意。

可以预见，随着后续迭代优化，DeepSeek-V4有望持续进化，成为开源AI生态中一个兼具性能与活力的基座模型。

实测在DeepSeek-V4上烧1000万token，我发现了3个惊喜和1个意外

热搜

热门跟贴

热搜

热门跟贴

相关推荐

4G内存跑安全大模型：一个工程师把DeepSeek蒸馏到能装进U

黄仁勋DeepSeek发布会前失控，美国AI未来显焦虑

Agent Token焦虑：当每次对话都在「烧钱」，技术如何破局？| GAIR Live 029期预告

开源作者把5个免费账号拼成1个无限额度，AI公司还没反应过来

DeepSource把150条规则塞进Python检查

百灵大模型认领“Elephant”，Ling-2.6-flash发布，每百万tokens 0.1美元

混元Hy3 preview发布！实测性价比拉满 TokenPlan套餐首发上线

Kubernetes认证链藏了3个陷阱，87%工程师踩过第2个

Docker用了3年，我却在凌晨2点被Kubernetes扎心了

Anthropic实锤Claude Code「降智」：就是这三个Bug造成的

谷歌做了个论文专用版nano banana！顶会级Figure直出

支持远程操控和通用GUI操作3

72%美国医生已用AI！ChatGPT杀入诊室，不看病专干杂活

00后小哥复刻Claude最强神话模型OpenMythos

DeepSeek V4登顶了！梁文锋把四大技术秘方公开

Deepseek V4第一波测评来了！

GPT-5.5发布：两倍定价，半步进化

刷屏！DeepSeek V4成本暴降73%，梁文锋联手华为寒武纪，源神归位全体起立

把反恐案例做成了反面教材！印度黑猫有多离谱？

记得住、答得快、用得省：HERMES 流式视频理解实时响应提速10倍