打开网易新闻 查看精彩图片

DeepSeek 的多模态,终于露出了一点产品形态。

刚刚,DeepSeek 多模态团队负责人陈小康在 X 上发了一句话:「Now, we see you. 」

打开网易新闻 查看精彩图片

几乎同时,部分用户在 DeepSeek 官方 App 中灰度到了一个新入口:在「快速模式」「专家模式」之外,输入栏上方出现了「识图模式」,旁边标注「图片理解功能内测中」。

打开网易新闻 查看精彩图片

根据公开信息,陈小康是 DeepSeek 多模态方向的核心研究员,目前主要从事多模态大语言模型研究。他本科和博士均毕业于北京大学,博士阶段师从曾刚教授,技术背景从计算机视觉起步,研究方向覆盖语义分割、目标检测、自监督学习、masked image modeling,以及后来的多模态理解与生成统一模型。

打开网易新闻 查看精彩图片

他早期参与过 CPS 半监督语义分割、CAE 视觉自监督预训练等工作,在 CVPR、ICCV、ECCV、IJCV 等顶会和期刊发表过多篇论文。加入 DeepSeek 后,陈小康的工作重心转向多模态基础模型,是 DeepSeek 多模态能力建设中的关键人物之一。他参与或主导了 Janus 系列、DeepSeek-VL2 等项目,其中 Janus 系列强调视觉理解与图像生成能力的统一。

用户上传图片后,DeepSeek 会先分析用户需求,再分析图片内容,最后给出结构化描述。这是 DeepSeek 主线产品中第一次出现图像理解能力。

打开网易新闻 查看精彩图片

过去一年,DeepSeek 的标签一直很清晰:低成本训练、MoE 架构、推理能力、代码能力、开源生态。无论是 V3、R1,还是最近发布的 V4,它的主要战场始终是文本模型。

但大模型竞争已经不再停留在文本里。模型要进入 Agent、办公、编程、设计、浏览器和真实工作流,就必须先学会「看」。看截图、看网页、看报错、看图表、看合同扫描件、看手机界面。

换句话说,多模态不是一个锦上添花的消费功能,而是 Agent 能不能真正工作的前提。

V4 留下了一个缺口

识图模式出现的时间点很微妙。

5 天前,DeepSeek 刚刚发布 V4 系列预览版。V4-Pro 参数规模达到 1.6T,V4-Flash 为 284B,二者都支持 100 万 token 上下文。官方也将 App 中的「专家模式」和「快速模式」分别对应到 V4-Pro 和 V4-Flash。

但 V4 仍然是纯文本模型。这与此前外界关于「V4 将原生多模态」的密集传闻并不一致。V4 技术报告也把「将多模态能力融入模型体系」放在未来方向里,而不是这次发布的核心内容。

所以,V4 发布后,很多人的问题是:DeepSeek 的多模态去哪了?

现在,答案出现了一部分。

从目前灰度截图来看,识图模式更像是图像理解,而不是原生多模态生成。它可以看图、理解图片、回答图片相关问题,但还看不出它已经具备图像生成、视频理解,或者更复杂的跨模态生成能力。

更合理的判断是:DeepSeek 先在 V4 主干之外,接入了一个视觉理解模块,让模型具备「看见」的能力。

人才流动之后,多模态线需要一次回应

DeepSeek 识图模式的低调灰度,更像是一场发生在风暴眼中的产品表态。

此前,这家以“极客、高效、独立”著称的公司正处在外界的严苛审视下。随着 V4 发布,关于 DeepSeek 人才流失的传闻不断。多模态核心贡献者阮翀加盟元戎启行,出任首席科学家;OCR 系列核心作者魏浩然也在春节前后离职。

在大模型赛道,人才流动本是常态,但当变动发生在多模态这条关键战线上,外界难免产生追问:DeepSeek 的视觉能力,是否还留在主线任务里?

更微妙的信号发生在线下。

工商信息显示,4 月 27 日,DeepSeek 关联公司杭州深度求索注册资本增至 1500 万元,增幅 50%。其中,创始人梁文锋的个人直接持股比例由 1% 飙升至 34%。若计入间接持股,梁文锋持股比例已超过 84%。

这并非一次体量巨大的增资,但其信号意义远大于财务意义。在外界传闻阿里等大厂拟以 200 亿美元估值入局、DeepSeek 寻求至少 3 亿美元融资的背景下,这种股权结构的再确认,更像是一场融资前的“战前整队”。

这让识图模式的上线,带上了多重隐喻。

它不仅仅是一个功能的查漏补缺,而是发生在 DeepSeek 关键的转型节点上——从一家“自我供血的研究型组织”,向“资本、产品、生态共同驱动”的平台化公司转场。

在过去,DeepSeek 成功的叙事核心是“用极高工程效率做出极强文本模型”。但进入 2026 年,大模型竞争早已演变为一场复杂的“体系战”。文本厚度、视觉入口、长上下文、Agent 工具链、国产算力适配,乃至 API 生态与资本杠杆,每一个变量都会被放在显微镜下,作为估值溢价的筹码。

多模态战线必须拿出进展,因为仅靠文本,已不足以支撑 DeepSeek 下一阶段的想象空间。

加入ZF讨论群,请先添加小助手微信

我们相信认知能够跨越阶层,

致力于为年轻人提供高质量的科技和财经内容。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

我们正在招募新一期的实习生