DeepSeek又又又又发新论文了！这一次，他们重构了AI看图的方式|deepseek|推理|新论文|模态

今天，DeepSeek又又又又发论文了。

看到的时候，我的第一反应是：这特么今年才过了不到一个月，我已经写了三篇DeepSeek论文解读了。照这个节奏，我是不是要转型成"DeepSeek论文博主"了？

不过这次倒是没梁文锋什么事（替他松口气），署名里没看到他。

说起来，最近Clawdbot挺火的，后台也一直有粉丝留言让我出教程。但相比追这种应用层的热点，我觉得还是读读论文更有意思——毕竟之前几篇DeepSeek论文解读，大家的反馈都挺好，说是终于看懂了技术内核。

所以，咱们还是继续读论文。

这次的论文叫DeepSeek-OCR 2，看起来是个很垂直的OCR模型。我承认，看到标题时觉得有点无聊——OCR？这么细分的领域，值得单独发论文吗？

但读完之后，我觉得这可能是他们今年最重要的技术突破之一。倒不是因为OCR本身多重要，而是因为他们在这个小问题里，提出了一个关于视觉语言模型（VLM）架构的有趣洞察：

AI看图的方式，一直都错了。

你看报纸的方式，和AI完全不同

想象你拿起一份报纸。

你的眼睛会怎么动？大概率是这样：先扫一眼大标题，跳到配图，看一眼图片说明，再决定要不要读正文。如果是多栏排版，你会根据内容的"重要性"在各栏之间跳跃，而不是从左上角第一个字开始，一行行扫到右下角。

这不是什么高深的认知科学发现。这是你每天都在做的事。

但AI不是这样看图的。

传统的视觉语言模型（VLM）处理图像的方式，更像一台复印机：从左到右，从上到下，逐行扫描。不管图像里有什么，不管哪里重要哪里不重要，它都用同一种机械的顺序把图像"读"成一串数字。

这个问题存在了很多年。直到最近，DeepSeek在一篇看起来很"小"的论文里，提出了一个挺"大"的洞察。

1967年的眼动实验

在讲DeepSeek的解法之前，我想先聊一个认知科学的经典实验。

1967年，苏联心理学家Alfred Yarbus做了一个著名的眼动追踪实验。他让不同的被试看同一幅画——列宾的《意外归来》，画的是一个流放者突然回到家中的场景。

有意思的是，Yarbus给每个被试不同的任务指令：

"估计这家人的经济状况"
"记住画中人物的位置"
"猜测这个人离开家多久了"

结果发现，同一幅画，不同任务下，被试的眼动轨迹完全不同。

让估计经济状况的人，眼睛会在家具、墙壁装饰之间跳跃。让猜测离开时间的人，眼睛会在归来者的脸和家人的表情之间反复扫视。

这说明什么？人类的视觉不是被动的接收，而是主动的搜索。我们的眼睛去哪里，取决于我们想知道什么，取决于我们之前已经看到了什么。

用论文里的话说，人类视觉是"因果性"的——每一次注视都依赖于之前获得的信息来决定下一步看哪里。

而传统AI没有这个能力。它只会机械地扫。

小径分岔的花园

博尔赫斯有一篇短篇小说，叫《小径分岔的花园》。

故事里有一座神秘的花园，主人公最终发现，这座花园其实是一部小说——一部在每个叙事节点都分叉出所有可能性的小说。在这部小说里，主人公可以同时选择所有的路径，每条路径都是真实的。

这个隐喻用来理解DeepSeek OCR 2的核心创新，挺合适。

传统VLM就像一个只会走直线的人穿越迷宫。从入口到出口，只有一条固定的路线：从左到右，从上到下。不管迷宫的结构如何，不管哪条路更近，它都只会沿着预设的方向走。

而人类看图——以及DeepSeek想让AI学会的方式——是站在每个岔路口，根据眼前的信息决定下一步往哪走。这条路看起来有标题？先走这边。那边有张图表？跳过去看看。

这就是论文标题里"Visual Causal Flow"（视觉因果流）的含义：让AI学会根据已经看到的内容，因果性地决定接下来看哪里。

DeepSeek的解法：两阶段级联推理

理解了问题，DeepSeek的解法就很自然了。

核心思路是：把"看图"这件事拆成两步。

第一步：推理"应该按什么顺序看"

传统VLM直接把图像拍平成一串token，顺序是固定的。DeepSeek的做法是，先让模型学会重新排列这些token的顺序——根据图像的语义内容，而不是空间位置。

这一步由一个叫"DeepEncoder V2"的编码器完成。它会输出一组"因果流查询"（causal flow query），这些查询token会按照模型认为合理的顺序，依次"注视"图像的不同部分。

第二步：在正确的顺序上做推理

重排之后，再把这些有序的视觉信息交给LLM做文本生成（比如OCR识别）。

因为顺序对了，LLM就能更好地理解文档的逻辑结构。比如先看到标题，再看到正文，而不是先看到页脚的页码。

一个巧妙的注意力mask

技术细节我尽量简化。

DeepEncoder V2的核心是一个巧妙的注意力机制设计。它把输入分成两部分：

视觉token：用双向注意力，每个token都能看到所有其他token。这保证了全局的感知能力。

因果流查询：用因果注意力，每个查询只能看到前面的查询和所有视觉token。这让查询之间形成"顺序"——第一个查询决定先看哪，第二个查询基于第一个的结果决定接下来看哪。

两种注意力拼在一起，就形成了一个特殊的注意力mask矩阵。视觉token负责"感知"，因果查询负责"排序"。

另一个有意思的设计：他们用一个小型LLM（Qwen2-500M）替换了传统的CLIP ViT作为视觉编码器。这让编码器本身就具备了"推理"能力，而不只是特征提取。

效果怎么样

说点实际的。

在OmniDocBench v1.5这个文档解析基准测试上，DeepSeek OCR 2达到了91.09%的综合得分，比前代提升了3.73%。

更有意义的是"阅读顺序"指标的提升——编辑距离从0.085降到了0.057。这说明模型确实学会了按更合理的顺序"读"文档，而不只是识别准确率提高了。

在实际生产环境中（DeepSeek的在线OCR服务和预训练数据管线），输出的重复率也从6.25%降到了4.17%，下降了33%。

而这一切，只用了256到1120个视觉token。作为对比，Qwen2.5-VL-72B要用超过6000个token。

这只是拼图的一块

OCR 2不是孤立的。

2026年1月，DeepSeek密集发布了一系列论文：

1月1日，mHC论文：提出"流形约束超连接"，解决大模型训练的稳定性问题。梁文锋署名。

1月12日，Engram论文：提出"条件记忆"机制，实现近乎无限的上下文检索。梁文锋署名。

1月27日，OCR 2论文：视觉因果流，让AI像人一样理解图像。

这些技术指向同一个方向：更高效、更稳定、更像人。

它们很可能都会整合进即将发布的DeepSeek V4。根据公开信息，V4预计在2月中旬（春节前后）发布。GitHub代码库意外泄露的"MODEL1"代号显示，这可能是一次架构重构，包括混合精度训练、Blackwell GPU优化、以及超过100万token的上下文窗口。

去年的V3和R1都是在春节窗口发布的。今年看起来也是。

从"看"的方式开始

回到OCR 2这篇论文本身。

它解决的问题看起来很"小"——文档OCR，把图片里的文字读出来。但它触及的问题挺"大"：AI应该怎么理解二维的视觉世界？

论文的讨论部分提到了两个方向：

一个是"Towards Genuine 2D Reasoning"——迈向真正的2D推理。用两个级联的1D因果推理来逼近2D理解。第一个1D负责"排序"，第二个1D负责"推理"。这是否能真正实现2D推理，还有待验证。

另一个是"Towards Native Multimodality"——迈向原生多模态。既然可以用LLM当视觉编码器，那能不能用同一套架构处理图像、音频、文本？只需要换一组模态专属的查询token就行。

期待真正的多模态DeepSeek

说起来，我们之前一直有个遗憾。

DeepSeek V3和R1都是很强的模型，R1甚至在推理能力上超越了o1。但它们都是纯文本模型。在DeepSeek的网站或App上对话时，你能上传图片，但模型只是单纯地识别图中的文字，然后基于文字内容回答——本质上还是文本推理。

这就像一个只能读字幕的人在"看"电影。

而从OCR 2这篇论文传递的信息看，DeepSeek在多模态上已经迈出了关键一步。他们不再满足于识别文字这种初级的图像理解，而是在探索如何让AI真正"理解"视觉信息的结构和语义。

加上之前泄露的GitHub代码里，"MODEL1"代号下有大量关于视觉编码器的配置，以及论文里明确提到的"Native Multimodality"方向——我们有理由期待，即将发布的DeepSeek V4会是一个能力相当不错的原生多模态模型。

真正学会看图。

这些都是开放的问题。但从DeepSeek的论文发布节奏来看，他们已经在路上了。

论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
模型：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

DeepSeek又又又又发新论文了！这一次，他们重构了AI看图的方式

热搜

热门跟贴

热搜

热门跟贴

相关推荐

科学界爆发AI认知污染！1年狂投50篇论文，ICLR投稿20%AI生成

论文探讨DeepSeek技术突破Transformer限制

DeepSeek推荐：长脑子最快的3个方式

北京大学等机构联合突破：让AI像人一样判断任务完成度

被Meta裁员后，知名华人科学家田渊栋总结：会用AI，才能在职场活下去

「迄今为止最伟大的 AI 应用」的 Clawdbot，或许并不适合你｜AI 上新

AI工具深入老百姓生活，使用高科技更需要高智商

deepseek只是第一个，后面还有更多的！

AI与SEO、GEO结合之后，照这种思路，传统软件业恐怕要崩溃了啊

deepseek把chatGDP忽悠瘸了

高效智能体幕后推手是谁？一篇综述带你从记忆×工具学习×规划看透

2026，进入AI记忆元年

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

全能视觉助手来了！Kimi低调上线K2.5，可同时调度100个智能体，效率最高提升4.5倍

刚刚，杨植麟亲自发布Kimi K2.5开源新王：指挥“智能体大军”，效率暴涨450%

Clawdbot改名Moltbot，它凭什么红遍硅谷

我国将出台应对人工智能影响促就业文件

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

Deepseek V4的最后一块拼图来了？全新OCR架构超越视觉压缩

视锥细胞与生存需求：生物视觉多样性解析