2026年5月9日,DeepSeek的识图模式今日正式全面开放,所有用户均可在网页端以及App上使用“识图模式”,这款广受好评的语言类大模型,终于也是进入多模态时代了。

原有OCR识别的弊端

这可不是原先右下角塞进去的图像识别,那本质上只是个OCR模块,单纯的把图像中的文字读取出来后再输入到文字框中。所以模型最终读到的,还是文字内容。

打开网易新闻 查看精彩图片

这样“曲线救国”的形式在以文字为主的图片时还堪能用,但当图片中有复杂的构图、排版,甚至是完全没有文字的艺术图,它基本上就抓瞎了。

全新识图模型上线

而在4月29日,Deep-Seek-V4上线仅5天的时候,DeepSeek网页端便悄然的上线了视觉理解的功能,在“快速模式”和“专家模式”之外,新增了“识图模式”的入口可供使用。当时仍然在灰度测试中,但根据获得测试资格的用户的反馈和网上交流,此次的进步堪称革命性的:它真正的给予了DeepSeek原生识别、理解图片的能力,不仅拥有常规的文字识别,更有高级的图像内容、结构甚至是空间推理的信息能力。

打开网易新闻 查看精彩图片

在全面放开视图模式后,我们也对这一模型进行了测试:我们在测试中上传了一张上海美术电影制片厂经典动画《大闹天宫》的孙悟空造型图。

打开网易新闻 查看精彩图片

DeepSeek的识图模式不仅准确的识别出角色是“孙悟空”,指出造型来源于《大闹天宫》,还能给出清晰的判断依据:虎皮裙的造型、京剧脸谱的猴脸、抬腿独立的姿态。

最后,模型还给出了对这张图的评价“充满中国传统戏曲的韵味”。这已经充分说明了其的识别能力。

打开网易新闻 查看精彩图片

我们也试着使用了传统的图片识别,模型根本无法识别内容,官方也会推荐切换到识图模式。

DeepSeek的一大步

作为全球顶尖的大模型之一,尤其是作为开源模型的中流砥柱,DeepSeek最大的遗憾就是仅支持文字输入。

而如今随着识图模式全面开放,DeepSeek已经成为头部国产大模型中完成多模态能力布局的关键一员,开始正式对标OpenAI、Anthropic等国际平台。

打开网易新闻 查看精彩图片

虽说DeepSeek目前仍不具备图像生成能力,识图的API接口也尚未开放,但这一切都只是时间问题,从图像识别到图像生成的路径,已经远比从文字到图像识别的路径短上许多。

更重要的是,DeepSeek 始终坚持廉价、亲民、高效的路线。基于V4协议的视觉识别能力,在识别效率上明显优于GPT等同类产品,而使用成本却远低于行业平均水平:识别一张800×800图像仅消耗约90 tokens。

这意味着,无论是学生、职场人还是设计师,都能以一个极低的门槛,享受到顶级的图文理解能力。

打开网易新闻 查看精彩图片