DeepSeek终于「不瞎」了!

大家注意到了吗,DeepSeek悄悄上线了「识图模式」,可以支持图片理解了。p2

在DeepSeek的web或者app界面里,原有的「快速模式」和「专家模式」右侧,出现了一个全新「视图模式」。

以前,DeepSeek对于图片,只有OCR能力,也就是说只能识别并提取图片里额文字,而不具备完整的视觉能力,无法理解图片内容。

现在,DeepSeek告别了睁眼瞎历史。

我先测试了一下「老鼠夹子」图片的识别,网上流传着一个笑话:豆包会把老鼠夹子识别成卡丁车玩具[奸笑]。

DeepSeek这次没有翻车,而且实测中反应速度极快,几乎是零延迟输出。p3(当然,我也试了豆包,豆包也不翻车,不过豆包会自动启用搜索功能,以保证更精准、更具备时效的回答,而DS的视图是不带联网搜索的,所以反应更快。)

不要小看这个识图功能,DeepSeek可以不支持多模态,不去卷生图、生视频的赛道,但是原生视觉理解功能非常有必要。(以前鹅厂元宝有个买点,就是作为DeepSeek的识图外挂。[跳跳])

这一点,对智能体和Coding场景也非常有价值↓

智能体看屏幕、看界面、看现实环境,都可以用DS的原生识图能力了

丢一张UI截图,直接生成前端代码,看产品原型,直接给修改建议。当然,你也终于可以用DeepSeek来玩数独和找不同了。

刚刚我把Anthropic的官网首页丢给DeepSeek,瞬间帮我复刻出前端代码,相当丝滑。p4

不过,目前这个识图能力,只是灰度测试,并没有面向所有人开放,能不能有,要看运气。

怎么样,现在打开你的DeepSeek,看看你被官方偏爱了吗?

识图的一小步,却是DeepSeek迈向多模态的一大步[旺柴]

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片