首先,它确实是摆脱了传统的OCR,真能看到图片全貌了,这点大伙可以放心。梗图翻译的不错,同事随手在车上拍的照很模糊,它也分析出了是什么车。考虑到D老师是数学高手,我们又给它传了一张数学相关的梗图,D老师的解释,依旧非常完美。 根据我的实测,D老师目前这个版本,也没有到天下无敌的地步。例如图5给它丢了一张图,非常美丽的地球夜景。DeepSeek说这张照片来自国际空间站。但其实,这张照片是一张晚霞下面的城市,这是倒悬过来的视角。。。我丢给了公认的多模态高手Gemini,它还真看出来了。 包括对一些人脸的识别,也是偶尔抽风,比如我把豆包的图片扔给了它,它给我识别的是B站UP主罗翔。还有经典的视错觉问题,D老师思考过程是对的,但因为仔细读题,觉得这是给它的错觉,所以选择欺骗自己,给出了错误答案。。。 综合评价,可以给到一个神鬼二象性,夯的时候夯,拉的时候拉完了。但话说回来,毕竟是灰测,咱还是得给它一些适应这个世界的时间。 也期待 DeepSeek 能把识图的多模态能力,尽快更新到V4新模型的API上面吧。
首先,它确实是摆脱了传统的OCR,真能看到图片全貌了,这点大伙可以放心。梗图翻译的不错,同事随手在车上拍的照很模糊,它也分析出了是什么车。考虑到D老师是数学高手,我们又给它传了一张数学相关的梗图,D老师的解释,依旧非常完美。 根据我的实测,D老师目前这个版本,也没有到天下无敌的地步。例如图5给它丢了一张图,非常美丽的地球夜景。DeepSeek说这张照片来自国际空间站。但其实,这张照片是一张晚霞下面的城市,这是倒悬过来的视角。。。我丢给了公认的多模态高手Gemini,它还真看出来了。 包括对一些人脸的识别,也是偶尔抽风,比如我把豆包的图片扔给了它,它给我识别的是B站UP主罗翔。还有经典的视错觉问题,D老师思考过程是对的,但因为仔细读题,觉得这是给它的错觉,所以选择欺骗自己,给出了错误答案。。。 综合评价,可以给到一个神鬼二象性,夯的时候夯,拉的时候拉完了。但话说回来,毕竟是灰测,咱还是得给它一些适应这个世界的时间。 也期待 DeepSeek 能把识图的多模态能力,尽快更新到V4新模型的API上面吧。


JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图
JPG
长图