大数据文摘受权转载自夕小瑶科技说

刚刚,DeepSeek 的「识图模式」开始灰度了。

网页版和 App 里,有些用户已经能看到它和「快速模式」「专家模式」并列出现。

打开网易新闻 查看精彩图片

后端配置里也能看到“name: 识图模式、description: 图片理解功能内测中”,这些字段。

打开网易新闻 查看精彩图片

5 天前,DeepSeek 刚发布 V4 预览版。现在,鲸鱼终于睁眼了。

DeepSeek 识图模式刚灰度,民间评测已经开始了。大家打开手机相册,直接出题:数手指、认动漫、看表情包、读截图、猜商品、找隐藏信息、判断一只猫到底是不是「被迫营业」。

我从夕小瑶Family群和网上挑了一些网友测试case,给大家先过过眼。

第一关,看见

之前Deepseek只能识别图片里的文字,现在可以理解图片了。

打开网易新闻 查看精彩图片

这类题测的是视觉模型的基础能力。

打开网易新闻 查看精彩图片

包括这个恐龙,都能用代码画出来了。那看起来,在这类题上,DeepSeek 已经cover住了。

至少从用户截图看,它不是过去那种只会 OCR 的状态,真的把画面元素一起读进去了。

入门关,完美通过。

第二关,懂梗

网友最爱测的第二类题,是文化语境题。

打开网易新闻 查看精彩图片

它要求模型知道画面之外的东西。

谁是特朗普?谁是鲁路修?必须先知道才能答上来。这类题会结合一部分世界知识,考验理解能力。

还有这个,这个小猫给人一种什么感觉?

打开网易新闻 查看精彩图片

可以看到,对情绪的理解也相当到位。能看懂主体是啥,还能看懂大家为什么转发给它,第二关,过!

第三关,别装懂

下面是更难的第三关,反直觉题。

比如数手指、视错觉、隐藏图案、低清截图、故意模糊的二创图。

这些题很烦。它们不只考模型看没看见,还考模型逻辑推理能力

打开网易新闻 查看精彩图片

就比如这个比大小。。

打开网易新闻 查看精彩图片

看起来,需要多让他思考几遍才能弄得明白。

DeepSeek一直以来最大的短板就是多模态。语言和推理能力卷到第一梯队了,但视觉理解一直缺位。现在补上识图,终于补了一块「多模态」短板。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!