实测DeepSeekV4：天下武功，唯快不破|上下文|人工智能模型|代码|工作流|模态|调用

“跳票”许久的DeepSeek-V4，终于来了。

几个小时前，DeepSeek-V4预览版上线并开源。巧的是，几乎同一天，OpenAI也推出了GPT-5.5。一个继续讲闭源生产力系统，一个继续讲开源、长上下文和低成本推理。中美AI产业中流量最大的两家基模公司，在同一天相遇。

DeepSeek-V4分为Pro与Flash两个版本，均支持百万（1M）token超长上下文，总参数规模分别达到1.6T（激活49B）与284B（激活13B）。。

不过，相比起“1.6T参数”或者 “百万token上下文”这两个夸张数字，技术文档里的两个十位数更值得关注：27%和10%。

根据HuggingFace上V4系列的介绍，在100万token上下文场景下，V4-Pro的单token推理FLOPs只有V3.2的27%，KVcache只有V3.2的10%。

翻译成人话就是，在处理超长材料的场景下，V4不只是“能装得下”，而且跑得更快、还更便宜。

这也许是是V4这次更新中最值得关注的地方。

过去半年，长上下文已经成了头部模型的共同卖点。Claude、Qwen、Kimi、GLM都在往长文本、代码仓库和Agent任务上走，DeepSeek这次把主线放在了长文本场景里最贵的部分：计算和缓存。

略显遗憾的是，V4目前并没有原生多模态功能，这会限制它在一些场景的发挥。

所以，V4的关键词，并不是行业内期盼已久的“新物种”，而是“效率工程”的再进一步。

回顾过往也确实如此，DeepSeek这家公司，一直都不是那种“性感”产品的路线，在Token调用暴涨的海洋中，V4要撑起的，是这家超级独角兽200亿美元估值的野望。

更快，但是没有原生多模态

身处2026年的今天，大模型支持长上下文已经不稀奇。但是另一个问题也随之而来：模型处理超长文本、超长链路的情况下，还能不能高效地继续工作。

一个模型如果只看几段文字，回答问题并不难；但如果让它看完整代码仓库、几十份合同、几个月会议记录，再持续生成、检索、改代码、调用工具，这个事情的难度会指数级增加。

V4-Pro的单token推理FLOPs只有V3.2的27%，KVcache只有V3.2的10%，正好对照着这个问题的答案。

前者指向每生成一个token所需的计算量，后者指向KVcache占用。KVcache可以理解成模型处理长文本时需要随身携带的“工作记忆”。

文本越长，这份工作记忆越重；如果每一步都背着完整包袱走，模型就很难轻快起来。

所以，天下武功，唯快不破。

这里的快，不是聊天窗口里早几秒回答，而是长文本任务中的运行效率。吃下1M文本之后之后，模型还能不能跑得动、跑得起，能不能支撑高频调用。

这一点在今天上线的GPT5.5中也有所体现，很多ChatGPT用户惊呼，GPT5.5-Thinking的响应速度，快了一不是一星半点。

结合眼下爆火的Agent工作流，这项指标提升就更为关键。包括OpenClaw在内的系统级Agent工具，在运行任务时，往往需要读文件、查资料、调用工具、修改代码、保存中间状态，再根据反馈继续下一步。

任务越真实，上下文越长，计算和缓存负担越容易滚雪球。很多Agent产品今天看起来像未来，一算成本就像灾难。V4如果真能把长上下文下的运行效率压下来，影响的是整个Agent工具链的成本结构。

字母AI也简单上手体验了一下DeepSeek V4Pro，我们搭建了一个简易的离线环境，跑了两个贴近日常用户场景的测试。

首先，我们给了V4 Pro一组关于MCP、结构化输出、工具调用、端侧模型和推理服务的材料，让它写一份技术分析。这个任务主要是考验，模型能不能把一堆概念和名词，整理成一张清楚的工程图。

V4Pro的表现比较像一个成熟技术编辑。它没有把材料逐条复述，而是抓住了一条主线：Agent的竞争不只是模型参数，而是模型如何稳定接入外部系统。换句话说，模型不能只会“想”，还要能读文件、查数据库、调用工具、把结果写回业务系统。

它把结构化输出理解成“让模型说出机器能直接读懂的话”，把MCP理解成“让模型应用更容易接外部工具的标准接口”，这就比单纯解释术语更接近真实产品。

第二个测试，是让它用Python写一个本地命令行工具，用来管理每天收集的AI行业新闻线索。这个Prompt写的很简单，只有几个基础的限制条件：不要联网，不调用API；能新增、查看、筛选、去重、自动打新闻价值分，并导出markdown日报。

V4 Pro直接给出了一个能跑的小工具。

用户可以录入公司、标题、类型、来源、链接、时间、正文和核验状态，程序会自动计算新闻价值分，再把线索分成“可直接引用”“需要继续核实”“暂不采用”。导出的markdown也会按层级分组，保留公司、标题、类型、分数、来源等维度。

这个测试能说明一个问题：V4 Pro可以把一个相对复杂的意图拆成结构、规则和可执行代码，这和DeepSeek过去的用户心智是契合的。

在OpenRouter这类开发者渠道上，DeepSeekV3系已经证明过自己的性价比和使用惯性。

OpenRouter数据显示，DeepSeekV3系列在2025年token消费超过7.27万亿，排名第五，仅次于ClaudeSonnet4、Gemini2.0Flash等模型。而直到今天，DeepSeekV3.2的调用量，依旧在OpenRouter榜单中名列前茅。

这说明用户认可的从来不只是benchmark，而是一个模型在真实工作流里是否稳定、便宜、高效。

这一点也可以放到Claude身上看。

在各大模型能力榜单上，ClaudeOpus4.6和GPT-5.4系列的对比中，结论并不总是Claude全面领先，甚至在一些知识、推理、速度指标上，GPT-5.4要表现的更好。

但这并不妨碍Claude在过去一段时间里继续收割开发者和企业市场。Anthropic 今年 2 月披露，按当时收入节奏折算，公司年收入规模已达到 140 亿美元；过去三年里，其收入每年都实现 10 倍以上增长。

所以，想要客观看待一个模型的能力，还是得放到真实工作流看实际工程表现。

当然，V4也不是没有短板。最大的遗憾，是它目前缺乏“原生多模态”的加持。早在发布前，社区对V4的期待就不只是文本模型。一些媒体此前也曾报道称，DeepSeekV4计划是一个能处理图片、视频和文本生成的多模态模型。

缺少了多模态能力，确实会带来一个现实问题，一旦涉及视觉理解、图表解析、、PPT/网页/软件界面处理这些场景里，就到了模型的能力边界外。

今天的生产力任务已经不再只是“读一段文字”。很多用户真正要处理的是图片、表格、截图、PDF、网页、视频会议和复杂软件界面。没有原生多模态，V4仍然可以是强大的长任务底座，但还不是完整的工作入口。

当然，也可以从另一个角度理解，站在融资和IPO的十字路口，V4首先给母公司解决的是地基问题，而不是建好整栋楼的问题。

走在融资路口的DeepSeek

V4发布的另一个背景，是DeepSeek融资消息突然密集起来。

显然，作为中国AI行业的稀有物种， DeepSeek一直不太缺钱。

过去，DeepSeek最有辨识度的标签之一，就是它不像典型AI独角兽那样靠融资叙事往前推。它背后有量化资金公司幻方的资金支持，又有梁文锋这样的旗帜性人物，长期以来在业内保持着神秘且专注的形象。

但在最近一段时间，情况开始发生变化。最新报道显示，DeepSeek正在以超过200亿美元估值寻求融资，阿里、腾讯等公司据称正在洽谈投资。具体的数字仍在谈判中，但方向已经足够清楚：DeepSeek已经走到了迎接资本市场的节点。

而V4，就是这个节点上的一个重要抓手。V4专注于讲效率的逻辑背后，实际上是抓住了当前的开发者群体最关心的部分，可预测的调用需求可能被进一步放大，进而推动更多的商业化落地。

这也是DeepSeek接下来最难的一关。200亿美元估值要证明的，不只是模型强，而是模型能不能转成稳定的商业系统。。

这一点上，竞争对手们已经在行动起来。Qwen、GLM、Kimi都在向Agentic Coding、工具调用和长任务执行靠拢，Claude也已经把企业知识工作和代码工作流做成了最重要的商业抓手。

显然，依托V4的能力，Deepseek还需要更多产品层面的落地。

Agent不是底座模型自己就能跑通，它还需要浏览器、文件系统、权限系统、企业软件接口、插件生态和产品体验。V4就算解决了地基问题，如何建立起一套生产力场景的用户生态，是粱文锋和团队接下来要思考的问题。

所以，V4最准确的定位不是，并不是人们想象中的模型新物种，而是把“开源模型任务底座”提升到了一个新的高度。

过去，DeepSeek已经证明了，中国公司可以用更低成本做出强模型。V4要证明的是，在百万上下文、Agent、国产算力和商业化同时到来的阶段，这套低成本路线还能不能继续成立。

眼下，V4已经把效率牌打出来了。接下来，DeepSeek要回答的是，这张牌能不能撑起一家200亿美元公司的商业体量。

实测DeepSeekV4：天下武功，唯快不破

热搜

热门跟贴

热搜

热门跟贴

相关推荐

4G内存跑安全大模型：一个工程师把DeepSeek蒸馏到能装进U

天下武功唯快不破

黄仁勋DeepSeek发布会前失控，美国AI未来显焦虑

Anthropic实锤Claude Code「降智」：就是这三个Bug造成的

实测在DeepSeek-V4上烧1000万token，我发现了3个惊喜和1个意外

Meta员工沦为AI训练工具人？小扎要强制监控员工鼠标、键盘

00后小哥复刻Claude最强神话模型OpenMythos

独家对话帕西尼许晋诚：一颗199的触觉传感器如何撑起百亿估值

Deepseek V4第一波测评来了！

DeepSeek V4登顶了！梁文锋把四大技术秘方公开

GPT-5.5发布：两倍定价，半步进化

“手搓”应用全民化，大厂打响新一轮卡位战

像梁文峰一样诚实

冲线第一却喊不公？下坡比赛到底藏着什么规则？

我在Word里用Claude替换了Copilot：一周后回不去了

我们拷打了小米最新大模型：全模态很惊艳，但联网检索仍是短板

山东医药大学通报“展某某学位证无法认证”：成立工作组调查核实

大熊猫“平平”“福双”将赴美国

太炸了！脱口秀冠军文本诞生！不好笑就露宿街头！

女人送文件到办公室时，却无意间听到个惊天秘密