打开网易新闻 查看精彩图片

“跳票”许久的DeepSeek-V4,终于来了。

几个小时前,DeepSeek-V4预览版上线并开源。巧的是,几乎同一天,OpenAI也推出了GPT-5.5。一个继续讲闭源生产力系统,一个继续讲开源、长上下文和低成本推理。中美AI产业中流量最大的两家基模公司,在同一天相遇。

DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文,总参数规模分别达到1.6T(激活49B)与284B(激活13B)。。

打开网易新闻 查看精彩图片

不过,相比起“1.6T参数”或者 “百万token上下文”这两个夸张数字,技术文档里的两个十位数更值得关注:27%和10%。

根据HuggingFace上V4系列的介绍,在100万token上下文场景下,V4-Pro的单token推理FLOPs只有V3.2的27%,KVcache只有V3.2的10%。

翻译成人话就是,在处理超长材料的场景下,V4不只是“能装得下”,而且跑得更快、还更便宜。

这也许是是V4这次更新中最值得关注的地方。

过去半年,长上下文已经成了头部模型的共同卖点。Claude、Qwen、Kimi、GLM都在往长文本、代码仓库和Agent任务上走,DeepSeek这次把主线放在了长文本场景里最贵的部分:计算和缓存。

略显遗憾的是,V4目前并没有原生多模态功能,这会限制它在一些场景的发挥。

所以,V4的关键词,并不是行业内期盼已久的“新物种”,而是“效率工程”的再进一步。

回顾过往也确实如此,DeepSeek这家公司,一直都不是那种“性感”产品的路线,在Token调用暴涨的海洋中,V4要撑起的,是这家超级独角兽200亿美元估值的野望。

01

更快,但是没有原生多模态

身处2026年的今天,大模型支持长上下文已经不稀奇。但是另一个问题也随之而来:模型处理超长文本、超长链路的情况下,还能不能高效地继续工作。

一个模型如果只看几段文字,回答问题并不难;但如果让它看完整代码仓库、几十份合同、几个月会议记录,再持续生成、检索、改代码、调用工具,这个事情的难度会指数级增加。

V4-Pro的单token推理FLOPs只有V3.2的27%,KVcache只有V3.2的10%,正好对照着这个问题的答案。

前者指向每生成一个token所需的计算量,后者指向KVcache占用。KVcache可以理解成模型处理长文本时需要随身携带的“工作记忆”。

打开网易新闻 查看精彩图片

文本越长,这份工作记忆越重;如果每一步都背着完整包袱走,模型就很难轻快起来。

所以,天下武功,唯快不破。

这里的快,不是聊天窗口里早几秒回答,而是长文本任务中的运行效率。吃下1M文本之后之后,模型还能不能跑得动、跑得起,能不能支撑高频调用。

这一点在今天上线的GPT5.5中也有所体现,很多ChatGPT用户惊呼,GPT5.5-Thinking的响应速度,快了一不是一星半点。

结合眼下爆火的Agent工作流,这项指标提升就更为关键。包括OpenClaw在内的系统级Agent工具,在运行任务时,往往需要读文件、查资料、调用工具、修改代码、保存中间状态,再根据反馈继续下一步。

任务越真实,上下文越长,计算和缓存负担越容易滚雪球。很多Agent产品今天看起来像未来,一算成本就像灾难。V4如果真能把长上下文下的运行效率压下来,影响的是整个Agent工具链的成本结构。

字母AI也简单上手体验了一下DeepSeek V4Pro,我们搭建了一个简易的离线环境,跑了两个贴近日常用户场景的测试。

打开网易新闻 查看精彩图片

首先,我们给了V4 Pro一组关于MCP、结构化输出、工具调用、端侧模型和推理服务的材料,让它写一份技术分析。这个任务主要是考验,模型能不能把一堆概念和名词,整理成一张清楚的工程图。

V4Pro的表现比较像一个成熟技术编辑。它没有把材料逐条复述,而是抓住了一条主线:Agent的竞争不只是模型参数,而是模型如何稳定接入外部系统。换句话说,模型不能只会“想”,还要能读文件、查数据库、调用工具、把结果写回业务系统。

它把结构化输出理解成“让模型说出机器能直接读懂的话”,把MCP理解成“让模型应用更容易接外部工具的标准接口”,这就比单纯解释术语更接近真实产品。

第二个测试,是让它用Python写一个本地命令行工具,用来管理每天收集的AI行业新闻线索。这个Prompt写的很简单,只有几个基础的限制条件:不要联网,不调用API;能新增、查看、筛选、去重、自动打新闻价值分,并导出markdown日报。

V4 Pro直接给出了一个能跑的小工具。

用户可以录入公司、标题、类型、来源、链接、时间、正文和核验状态,程序会自动计算新闻价值分,再把线索分成“可直接引用”“需要继续核实”“暂不采用”。导出的markdown也会按层级分组,保留公司、标题、类型、分数、来源等维度。

打开网易新闻 查看精彩图片

这个测试能说明一个问题:V4 Pro可以把一个相对复杂的意图拆成结构、规则和可执行代码,这和DeepSeek过去的用户心智是契合的。

在OpenRouter这类开发者渠道上,DeepSeekV3系已经证明过自己的性价比和使用惯性。

OpenRouter数据显示,DeepSeekV3系列在2025年token消费超过7.27万亿,排名第五,仅次于ClaudeSonnet4、Gemini2.0Flash等模型。而直到今天,DeepSeekV3.2的调用量,依旧在OpenRouter榜单中名列前茅。

这说明用户认可的从来不只是benchmark,而是一个模型在真实工作流里是否稳定、便宜、高效。

这一点也可以放到Claude身上看。

在各大模型能力榜单上,ClaudeOpus4.6和GPT-5.4系列的对比中,结论并不总是Claude全面领先,甚至在一些知识、推理、速度指标上,GPT-5.4要表现的更好。

但这并不妨碍Claude在过去一段时间里继续收割开发者和企业市场。Anthropic 今年 2 月披露,按当时收入节奏折算,公司年收入规模已达到 140 亿美元;过去三年里,其收入每年都实现 10 倍以上增长。

所以,想要客观看待一个模型的能力,还是得放到真实工作流看实际工程表现。

当然,V4也不是没有短板。最大的遗憾,是它目前缺乏“原生多模态”的加持。早在发布前,社区对V4的期待就不只是文本模型。一些媒体此前也曾报道称,DeepSeekV4计划是一个能处理图片、视频和文本生成的多模态模型。

缺少了多模态能力,确实会带来一个现实问题,一旦涉及视觉理解、图表解析、、PPT/网页/软件界面处理这些场景里,就到了模型的能力边界外。

今天的生产力任务已经不再只是“读一段文字”。很多用户真正要处理的是图片、表格、截图、PDF、网页、视频会议和复杂软件界面。没有原生多模态,V4仍然可以是强大的长任务底座,但还不是完整的工作入口。

当然,也可以从另一个角度理解,站在融资和IPO的十字路口,V4首先给母公司解决的是地基问题,而不是建好整栋楼的问题。

02

走在融资路口的DeepSeek

V4发布的另一个背景,是DeepSeek融资消息突然密集起来。

显然,作为中国AI行业的稀有物种, DeepSeek一直不太缺钱。

过去,DeepSeek最有辨识度的标签之一,就是它不像典型AI独角兽那样靠融资叙事往前推。它背后有量化资金公司幻方的资金支持,又有梁文锋这样的旗帜性人物,长期以来在业内保持着神秘且专注的形象。

但在最近一段时间,情况开始发生变化。最新报道显示,DeepSeek正在以超过200亿美元估值寻求融资,阿里、腾讯等公司据称正在洽谈投资。具体的数字仍在谈判中,但方向已经足够清楚:DeepSeek已经走到了迎接资本市场的节点。

打开网易新闻 查看精彩图片

而V4,就是这个节点上的一个重要抓手。V4专注于讲效率的逻辑背后,实际上是抓住了当前的开发者群体最关心的部分,可预测的调用需求可能被进一步放大,进而推动更多的商业化落地。

这也是DeepSeek接下来最难的一关。200亿美元估值要证明的,不只是模型强,而是模型能不能转成稳定的商业系统。。

这一点上,竞争对手们已经在行动起来。Qwen、GLM、Kimi都在向Agentic Coding、工具调用和长任务执行靠拢,Claude也已经把企业知识工作和代码工作流做成了最重要的商业抓手。

显然,依托V4的能力,Deepseek还需要更多产品层面的落地。

Agent不是底座模型自己就能跑通,它还需要浏览器、文件系统、权限系统、企业软件接口、插件生态和产品体验。V4就算解决了地基问题,如何建立起一套生产力场景的用户生态,是粱文锋和团队接下来要思考的问题。

所以,V4最准确的定位不是,并不是人们想象中的模型新物种,而是把“开源模型任务底座”提升到了一个新的高度。

过去,DeepSeek已经证明了,中国公司可以用更低成本做出强模型。V4要证明的是,在百万上下文、Agent、国产算力和商业化同时到来的阶段,这套低成本路线还能不能继续成立。

眼下,V4已经把效率牌打出来了。接下来,DeepSeek要回答的是,这张牌能不能撑起一家200亿美元公司的商业体量。