从“看见”到“看懂”：DeepSeek正式跨入图文交互时代

机锋网

2026-05-09 15:46 ·北京 ·优质汽车领域创作者

2026年5月9日，DeepSeek的识图模式今日正式全面开放，所有用户均可在网页端以及App上使用“识图模式”，这款广受好评的语言类大模型，终于也是进入多模态时代了。

原有OCR识别的弊端

这可不是原先右下角塞进去的图像识别，那本质上只是个OCR模块，单纯的把图像中的文字读取出来后再输入到文字框中。所以模型最终读到的，还是文字内容。

这样“曲线救国”的形式在以文字为主的图片时还堪能用，但当图片中有复杂的构图、排版，甚至是完全没有文字的艺术图，它基本上就抓瞎了。

全新识图模型上线

而在4月29日，Deep-Seek-V4上线仅5天的时候，DeepSeek网页端便悄然的上线了视觉理解的功能，在“快速模式”和“专家模式”之外，新增了“识图模式”的入口可供使用。当时仍然在灰度测试中，但根据获得测试资格的用户的反馈和网上交流，此次的进步堪称革命性的：它真正的给予了DeepSeek原生识别、理解图片的能力，不仅拥有常规的文字识别，更有高级的图像内容、结构甚至是空间推理的信息能力。

在全面放开视图模式后，我们也对这一模型进行了测试：我们在测试中上传了一张上海美术电影制片厂经典动画《大闹天宫》的孙悟空造型图。

DeepSeek的识图模式不仅准确的识别出角色是“孙悟空”，指出造型来源于《大闹天宫》，还能给出清晰的判断依据：虎皮裙的造型、京剧脸谱的猴脸、抬腿独立的姿态。

最后，模型还给出了对这张图的评价“充满中国传统戏曲的韵味”。这已经充分说明了其的识别能力。

我们也试着使用了传统的图片识别，模型根本无法识别内容，官方也会推荐切换到识图模式。

DeepSeek的一大步

作为全球顶尖的大模型之一，尤其是作为开源模型的中流砥柱，DeepSeek最大的遗憾就是仅支持文字输入。

而如今随着识图模式全面开放，DeepSeek已经成为头部国产大模型中完成多模态能力布局的关键一员，开始正式对标OpenAI、Anthropic等国际平台。

虽说DeepSeek目前仍不具备图像生成能力，识图的API接口也尚未开放，但这一切都只是时间问题，从图像识别到图像生成的路径，已经远比从文字到图像识别的路径短上许多。

更重要的是，DeepSeek 始终坚持廉价、亲民、高效的路线。基于V4协议的视觉识别能力，在识别效率上明显优于GPT等同类产品，而使用成本却远低于行业平均水平：识别一张800×800图像仅消耗约90 tokens。

这意味着，无论是学生、职场人还是设计师，都能以一个极低的门槛，享受到顶级的图文理解能力。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴