刚刚！DeepSeek多模态功能开启灰度测试，识图模式已上线

未来图灵

2026-04-29 18:13 ·北京 ·《未来图灵》官方网易号

DeepSeek：现在我们看见你了

4月29日，DeepSeek多模态技术负责人陈小康在X平台发了一张图：左侧鲸鱼戴着海盗眼罩，右侧DeepSeek图标，配文“Now we see you.（现在我们看见你了）”。同一条推文的前一天版本“Soon, we see you（马上我们就能看到你）”已被删除。

陈小康在回复中确认，部分网页端和App端用户已可使用多模态功能。未来图灵小编发现，DeepSeek对话界面除了“快速模式”“专家模式”，新增了“识图模式”按钮，标注“图片理解功能内测中”。

未来图灵小编上传PNG图片实测，DeepSeek能精准识别图中人物、背景、动作和颜色。

截至发稿，DeepSeek未在官网、Hugging Face或GitHub发布新的多模态模型权重、技术报告或正式公告。

缺了多模态，纯文本模型能回答问题，但看不懂截图、网页、表格和文档。没有视觉能力，Agent就无法“看懂用户的屏幕”。过去一年，DeepSeek在这一方向密集落子：DeepSeek-VL2专攻视觉问答和OCR，Janus系列尝试图文统一，DeepSeek-OCR探索用视觉编码压缩长文本。

值得注意的是，陈小康此前在X平台的身份标注为“多模态预训练与后训练负责人”。北大博士期间，他的研究方向涵盖视觉-语言模型、半监督分割和掩码图像建模。

业内推测，多模态功能将率先落地图片理解、OCR、文档解析、图表分析和截图问答，短期内不会上线图像生成或视频模型。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴