今天,DeepSeek又又又又发论文了。

打开网易新闻 查看精彩图片

看到的时候,我的第一反应是:这特么今年才过了不到一个月,我已经写了三篇DeepSeek论文解读了。照这个节奏,我是不是要转型成"DeepSeek论文博主"了?

不过这次倒是没梁文锋什么事(替他松口气),署名里没看到他。

说起来,最近Clawdbot挺火的,后台也一直有粉丝留言让我出教程。但相比追这种应用层的热点,我觉得还是读读论文更有意思——毕竟之前几篇DeepSeek论文解读,大家的反馈都挺好,说是终于看懂了技术内核。

所以,咱们还是继续读论文。

这次的论文叫DeepSeek-OCR 2,看起来是个很垂直的OCR模型。我承认,看到标题时觉得有点无聊——OCR?这么细分的领域,值得单独发论文吗?

但读完之后,我觉得这可能是他们今年最重要的技术突破之一。倒不是因为OCR本身多重要,而是因为他们在这个小问题里,提出了一个关于视觉语言模型(VLM)架构的有趣洞察:

AI看图的方式,一直都错了。

你看报纸的方式,和AI完全不同

想象你拿起一份报纸。

打开网易新闻 查看精彩图片

你的眼睛会怎么动?大概率是这样:先扫一眼大标题,跳到配图,看一眼图片说明,再决定要不要读正文。如果是多栏排版,你会根据内容的"重要性"在各栏之间跳跃,而不是从左上角第一个字开始,一行行扫到右下角。

这不是什么高深的认知科学发现。这是你每天都在做的事。

但AI不是这样看图的。

传统的视觉语言模型(VLM)处理图像的方式,更像一台复印机:从左到右,从上到下,逐行扫描。不管图像里有什么,不管哪里重要哪里不重要,它都用同一种机械的顺序把图像"读"成一串数字。

这个问题存在了很多年。直到最近,DeepSeek在一篇看起来很"小"的论文里,提出了一个挺"大"的洞察。

1967年的眼动实验

在讲DeepSeek的解法之前,我想先聊一个认知科学的经典实验。

1967年,苏联心理学家Alfred Yarbus做了一个著名的眼动追踪实验。他让不同的被试看同一幅画——列宾的《意外归来》,画的是一个流放者突然回到家中的场景。

打开网易新闻 查看精彩图片

有意思的是,Yarbus给每个被试不同的任务指令:

  • "估计这家人的经济状况"

  • "记住画中人物的位置"

  • "猜测这个人离开家多久了"

结果发现,同一幅画,不同任务下,被试的眼动轨迹完全不同。

打开网易新闻 查看精彩图片

让估计经济状况的人,眼睛会在家具、墙壁装饰之间跳跃。让猜测离开时间的人,眼睛会在归来者的脸和家人的表情之间反复扫视。

这说明什么?人类的视觉不是被动的接收,而是主动的搜索。我们的眼睛去哪里,取决于我们想知道什么,取决于我们之前已经看到了什么。

用论文里的话说,人类视觉是"因果性"的——每一次注视都依赖于之前获得的信息来决定下一步看哪里。

而传统AI没有这个能力。它只会机械地扫。

小径分岔的花园

博尔赫斯有一篇短篇小说,叫《小径分岔的花园》。

打开网易新闻 查看精彩图片

故事里有一座神秘的花园,主人公最终发现,这座花园其实是一部小说——一部在每个叙事节点都分叉出所有可能性的小说。在这部小说里,主人公可以同时选择所有的路径,每条路径都是真实的。

这个隐喻用来理解DeepSeek OCR 2的核心创新,挺合适。

传统VLM就像一个只会走直线的人穿越迷宫。从入口到出口,只有一条固定的路线:从左到右,从上到下。不管迷宫的结构如何,不管哪条路更近,它都只会沿着预设的方向走。

而人类看图——以及DeepSeek想让AI学会的方式——是站在每个岔路口,根据眼前的信息决定下一步往哪走。这条路看起来有标题?先走这边。那边有张图表?跳过去看看。

这就是论文标题里"Visual Causal Flow"(视觉因果流)的含义:让AI学会根据已经看到的内容,因果性地决定接下来看哪里。

DeepSeek的解法:两阶段级联推理

理解了问题,DeepSeek的解法就很自然了。

核心思路是:把"看图"这件事拆成两步。

第一步:推理"应该按什么顺序看"

传统VLM直接把图像拍平成一串token,顺序是固定的。DeepSeek的做法是,先让模型学会重新排列这些token的顺序——根据图像的语义内容,而不是空间位置。

这一步由一个叫"DeepEncoder V2"的编码器完成。它会输出一组"因果流查询"(causal flow query),这些查询token会按照模型认为合理的顺序,依次"注视"图像的不同部分。

第二步:在正确的顺序上做推理

重排之后,再把这些有序的视觉信息交给LLM做文本生成(比如OCR识别)。

因为顺序对了,LLM就能更好地理解文档的逻辑结构。比如先看到标题,再看到正文,而不是先看到页脚的页码。

一个巧妙的注意力mask

技术细节我尽量简化。

DeepEncoder V2的核心是一个巧妙的注意力机制设计。它把输入分成两部分:

视觉token:用双向注意力,每个token都能看到所有其他token。这保证了全局的感知能力。

因果流查询:用因果注意力,每个查询只能看到前面的查询和所有视觉token。这让查询之间形成"顺序"——第一个查询决定先看哪,第二个查询基于第一个的结果决定接下来看哪。

打开网易新闻 查看精彩图片

两种注意力拼在一起,就形成了一个特殊的注意力mask矩阵。视觉token负责"感知",因果查询负责"排序"。

另一个有意思的设计:他们用一个小型LLM(Qwen2-500M)替换了传统的CLIP ViT作为视觉编码器。这让编码器本身就具备了"推理"能力,而不只是特征提取。

效果怎么样

说点实际的。

在OmniDocBench v1.5这个文档解析基准测试上,DeepSeek OCR 2达到了91.09%的综合得分,比前代提升了3.73%。

更有意义的是"阅读顺序"指标的提升——编辑距离从0.085降到了0.057。这说明模型确实学会了按更合理的顺序"读"文档,而不只是识别准确率提高了。

在实际生产环境中(DeepSeek的在线OCR服务和预训练数据管线),输出的重复率也从6.25%降到了4.17%,下降了33%。

而这一切,只用了256到1120个视觉token。作为对比,Qwen2.5-VL-72B要用超过6000个token。

打开网易新闻 查看精彩图片

这只是拼图的一块

OCR 2不是孤立的。

2026年1月,DeepSeek密集发布了一系列论文:

1月1日,mHC论文:提出"流形约束超连接",解决大模型训练的稳定性问题。梁文锋署名。

1月12日,Engram论文:提出"条件记忆"机制,实现近乎无限的上下文检索。梁文锋署名。

1月27日,OCR 2论文:视觉因果流,让AI像人一样理解图像。

这些技术指向同一个方向:更高效、更稳定、更像人。

它们很可能都会整合进即将发布的DeepSeek V4。根据公开信息,V4预计在2月中旬(春节前后)发布。GitHub代码库意外泄露的"MODEL1"代号显示,这可能是一次架构重构,包括混合精度训练、Blackwell GPU优化、以及超过100万token的上下文窗口。

去年的V3和R1都是在春节窗口发布的。今年看起来也是。

从"看"的方式开始

回到OCR 2这篇论文本身。

它解决的问题看起来很"小"——文档OCR,把图片里的文字读出来。但它触及的问题挺"大":AI应该怎么理解二维的视觉世界?

论文的讨论部分提到了两个方向:

一个是"Towards Genuine 2D Reasoning"——迈向真正的2D推理。用两个级联的1D因果推理来逼近2D理解。第一个1D负责"排序",第二个1D负责"推理"。这是否能真正实现2D推理,还有待验证。

另一个是"Towards Native Multimodality"——迈向原生多模态。既然可以用LLM当视觉编码器,那能不能用同一套架构处理图像、音频、文本?只需要换一组模态专属的查询token就行。

期待真正的多模态DeepSeek

说起来,我们之前一直有个遗憾。

DeepSeek V3和R1都是很强的模型,R1甚至在推理能力上超越了o1。但它们都是纯文本模型。在DeepSeek的网站或App上对话时,你能上传图片,但模型只是单纯地识别图中的文字,然后基于文字内容回答——本质上还是文本推理。

这就像一个只能读字幕的人在"看"电影。

而从OCR 2这篇论文传递的信息看,DeepSeek在多模态上已经迈出了关键一步。他们不再满足于识别文字这种初级的图像理解,而是在探索如何让AI真正"理解"视觉信息的结构和语义。

加上之前泄露的GitHub代码里,"MODEL1"代号下有大量关于视觉编码器的配置,以及论文里明确提到的"Native Multimodality"方向——我们有理由期待,即将发布的DeepSeek V4会是一个能力相当不错的原生多模态模型。

真正学会看图。

这些都是开放的问题。但从DeepSeek的论文发布节奏来看,他们已经在路上了。

  • 论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

  • 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2