4月29日消息,DeepSeek多模态功能疑似进入灰度测试阶段。
该公司核心多模态技术负责人陈小康今日在X平台发布一张图片,右侧为DeepSeek图标,左侧鲸鱼眼睛被戴上眼罩,配文"现在我们看见你了"。
打开网易新闻 查看精彩图片
他在回复中确认,部分网页端和APP端用户已可使用多模态功能。据网友截图,DeepSeek对话除了快速和专家模式,还专门设置了识图模式。
打开网易新闻 查看精彩图片
另有网友分享的使用截图显示,在对话中插入PNG图片后,DeepSeek能够精准识别图中元素,包括人物、背景、动作及颜色。
打开网易新闻 查看精彩图片
截至发稿,DeepSeek尚未在官网、Hugging Face或GitHub发布新的多模态模型权重、技术报告或正式公告。
值得注意的是,陈小康昨日曾发布同一张图片,配文为"马上我们就能看到你",该帖今日已被删除。
此前,DeepSeek一直不支持多模态功能,而纯文本模型虽能回答问题,却无法理解用户的屏幕、截图、网页、表格和文档。
据业内推测,DeepSeek多模态功能最可能率先落地图片理解、OCR、文档解析、图表分析和截图问答等场景,短期内应该不会发布图像生成或视频模型。