五一放假前一天,大家都准备躺平了。DeepSeek反手就是一个大招。多模态能力灰度测试开启。部分用户打开首页,发现多了一个"识图模式"的入口。

打开网易新闻 查看精彩图片

上传图片,DeepSeek能像人一样理解画面了。

多模态团队负责人陈小康发了句话:"现在,我们能看见你了。"

听起来像情话。但这是DeepSeek的聊天产品,第一次接入多模态。

然后论文就没了

更魔幻的来了。

打开网易新闻 查看精彩图片

4月30日,DeepSeek发了一篇技术报告《Thinking with Visual Primitives》(用视觉原语思考)。五一节前一天发重磅论文,这很DeepSeek。

但很快,官方连夜删除了多模态仓库和论文原文。5月1日打开Github,已经是404状态。

删除原因?官方没说。

有人猜不是内容问题,而是信息透露太多。DeepSeek这波操作,我只能说:懂的都懂。

这篇论文说了啥?

先别管删没删,内容才是重点。

这篇论文,符合DeepSeek一贯的风格:扎实,务实,用工程能力降成本。

核心就一句话:多模态模型在复杂任务上崩溃,不是因为看不见,而是因为"指不准"。

什么意思?

自然语言天然有模糊性。你让模型处理复杂空间布局,光靠文字描述,很容易产生歧义。

就像数一堆散落的硬币。你不用手指逐个按着确认,人类也会数错或数重。

DeepSeek的解法是:给模型配一只"手指"。

通过引入"视觉原语"框架,模型把点、边界框这些空间标记,提升为最小思维单元。模型在推理时,能一边"想"一边"指",把抽象的语言逻辑指向具体空间坐标。

这灵感来自人类认知。你走迷宫或数密集物体时,会用手指这类指示性指向,来降低认知负荷、维持逻辑一致性。

DeepSeek把这套逻辑,教给了模型。

性能怎么样?

这模型基于DeepSeek-V4-Flash构建,总参数2840亿。

大量实验表明,在推理精度上实现显著突破。空间推理、视觉问答这些挑战性任务上,性能持平或超越GPT、Claude、Gemini最新版本。

DeepSeek的研究证明了一件事:多模态智能的未来,不只是"看见更多像素",而是构建语言与视觉之间精准、无歧义的指代桥梁。

这句话,值得读三遍。

为什么之前不做多模态?

其实DeepSeek在4月24日发布了V4系列旗舰模型,但当时并没有涉及多模态。官方对V4的定义是:支持百万字超长上下文,在Agent能力、世界知识和推理性能上实现国内与开源领域领先。

多模态已经是当前大模型更新的重要方向。DeepSeek迟迟没跟上,被认为是能力上的一大短板。

有传言说,DeepSeek暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。融资后,这一方向的训练会更顺利。

是不是真的?我不知道。但我知道一件事:技术路线的选择,永远比我们想象的更复杂。

一个比喻

DeepSeek这次的创新,让我想起一个场景。

你让一个盲人描述房间里的东西。他能听见你的描述,能摸到家具的轮廓,但就是没法精准指向某个具体位置。

现在,你给了他一根手杖。

他可以一边走,一边敲,一边确认。语言和空间,终于对上了。

这就是视觉原语的意义。不是让模型看得更清楚,而是让模型指得更准确。

DeepSeek这波操作,让我想起一句话:

技术进步的本质,是把人类的认知方式,翻译成机器能理解的语言。

视觉原语框架,就是这样一个翻译器。它把人类"边指边想"的认知习惯,变成了模型推理的基本单元。

论文删了,但思路留下了。

DeepSeek的多模态时代,才刚刚开始。。。