DeepSeek:现在我们看见你了
4月29日,DeepSeek多模态技术负责人陈小康在X平台发了一张图:左侧鲸鱼戴着海盗眼罩,右侧DeepSeek图标,配文“Now we see you.(现在我们看见你了)”。同一条推文的前一天版本“Soon, we see you(马上我们就能看到你)”已被删除。
打开网易新闻 查看精彩图片
陈小康在回复中确认,部分网页端和App端用户已可使用多模态功能。未来图灵小编发现,DeepSeek对话界面除了“快速模式”“专家模式”,新增了“识图模式”按钮,标注“图片理解功能内测中”。
打开网易新闻 查看精彩图片
未来图灵小编上传PNG图片实测,DeepSeek能精准识别图中人物、背景、动作和颜色。
打开网易新闻 查看精彩图片
截至发稿,DeepSeek未在官网、Hugging Face或GitHub发布新的多模态模型权重、技术报告或正式公告。
缺了多模态,纯文本模型能回答问题,但看不懂截图、网页、表格和文档。没有视觉能力,Agent就无法“看懂用户的屏幕”。过去一年,DeepSeek在这一方向密集落子:DeepSeek-VL2专攻视觉问答和OCR,Janus系列尝试图文统一,DeepSeek-OCR探索用视觉编码压缩长文本。
值得注意的是,陈小康此前在X平台的身份标注为“多模态预训练与后训练负责人”。北大博士期间,他的研究方向涵盖视觉-语言模型、半监督分割和掩码图像建模。
业内推测,多模态功能将率先落地图片理解、OCR、文档解析、图表分析和截图问答,短期内不会上线图像生成或视频模型。
热门跟贴