2025年10月20日,AI圈没等来新模型参数翻倍的消息,反倒被DeepSeek-AI团队的一份开源研究炸了锅。

这份名叫DeepSeek-OCR的论文,表面看是做光学字符识别的普通成果,实则藏着改写大模型底层逻辑的野心——它要彻底抛弃文本token,让AI用“看图片”的方式读文字。

打开网易新闻 查看精彩图片

这步棋下得太反常识了。要知道,过去几年AI圈全在拼“上下文窗口”大小,从几千个token卷到百万、千万级,看似进步神速,实则早走进了死胡同。

被算力卡脖子的AI:上下文越长,死得越惨

大模型读文字的原理,其实藏着个致命漏洞。

咱们平时说的“上下文”,在AI眼里是一串“token”(可以理解成文字碎片)。

处理这些token靠的是“注意力机制”,但这机制有个绕不开的毛病:计算成本是token数量的平方

简单说,上下文长度翻一倍,需要的算力和内存就得翻四倍。

这就像给人背书包,装10本书还能跑,装100本直接压垮。谷歌、微软这些巨头再有钱,也架不住这种“指数级烧钱”。

后来业界搞出了“分组查询注意力”之类的优化手段,本质都是拆东墙补西墙。比如把1000个token分成10组,每组内部单独计算,看似省了力,实则还是在跟“token数量”死磕,没解决根本问题。

到2024年,千万token的模型已经出现,但单条推理成本比普通模型高30倍,普通公司根本用不起。所有人都知道这条路走不通,可没人敢跳出来换条道——直到DeepSeek出手。

反常识破局:把文字变图片,10倍信息压成1份

DeepSeek-OCR的核心想法简单到离谱:既然文本token太费钱,那就干脆不用了,把文字都变成图片,让AI“看”着读。

打开网易新闻 查看精彩图片

这个思路的底层逻辑很接地气:人类写的文字本来就是二维的视觉符号,一张A4纸的文字拍成照片,信息密度比拆成token高得多。

就像咱们看报纸,一眼能扫半页,AI却得一个字一个字啃,效率差太远了。

团队做了个实验:一篇1万个文本token的文章,渲染成高分辨率图片后,通过他们的算法处理,最后只需要几百个“视觉token”就能代表。

这一下就把之前的“平方级成本陷阱”给绕过去了——原来要处理1万个token,现在只要几百个,计算量直接砍到原来的几百分之一。

但这里有个关键问题:高分辨率图片本身也麻烦。一张1024x1024的图,按普通视觉模型的处理方式,得切成几千个图像块,照样会引发“token爆炸”。

为解决这个矛盾,DeepSeek搞出了整个研究的核心——DeepEncoder编码器。这个3.8亿参数的模型,就像个“智能压缩师”,分三步把海量信息榨成精华。

3步压缩魔法:DeepEncoder的“精打细算”套路

DeepEncoder的设计逻辑特别符合直觉,说白了就是“先看细节,再抽重点,最后懂全局”,跟咱们读文章的习惯一模一样。

打开网易新闻 查看精彩图片

第一步是“局部感知”,用的是SAM-base模型的技术。

它会把图片切成4096个小方块,但不搞全局计算,只在每个小窗口里处理细节。

这就像看报纸时先逐行扫字,不着急联想上下文,既能看清每个字,又不会占用太多内存。

第二步“压缩提炼”是最关键的一步。

一个16倍的卷积压缩器会把4096个局部token,像挤海绵一样压成256个。

这一步就像读完文章后划重点,把没用的修饰词全删掉,只留核心句子,信息密度一下就提上来了。

第三步“全局理解”,交给CLIP-large模型来搞定。

因为只剩256个token,模型终于能“奢侈”地用全局注意力,把这些重点串起来理解逻辑。这时候就像读完重点后梳理文章结构,很快能搞懂整篇内容的脉络。

这套组合拳打下来,高分辨率图片的细节留住了,计算成本却降了下来。

跟其他视觉模型比,它既不搞碎片化猜测,也不硬扛海量token的计算压力,而是在内部完成了“压缩-提炼”的闭环。

数据说话:800个token干翻7000个,精度还更高

实验结果一出来,AI圈都安静了——这方法是真能打。

打开网易新闻 查看精彩图片

在10倍压缩率下,也就是用1个视觉token代表10个文本token,DeepSeek-OCR的解码精度能达到96.5%,基本没啥信息损失。就算压缩到20倍,精度也还在可用范围,对付简单的信息提取完全够了。

更狠的是权威基准测试OmniDocBench的数据:DeepSeek-OCR只用不到800个视觉token,就全面超过了需要近7000个文本token的传统顶尖模型。要知道,7000个token的处理成本,是800个的几十倍。

在实际应用里,这东西的效率高得吓人。单张A100-40GGPU一天能处理20万页文档,训练成本只有传统模型的1/7。就算是低质量的扫描件、多语言混合的文档,它的识别准确率也比老模型高45%。

前特斯拉AI总监AndrejKarpathy看完论文直言:“这可能是AI的JPEG时刻”,意思是它就像图片压缩技术一样,会彻底改变行业规则。

终极野心:模拟人类记忆,告别“分词器”时代

如果说10倍压缩只是开胃菜,那DeepSeek在论文结尾透露的“光学遗忘”机制,才是真正的大招——这东西可能让AI拥有“无限上下文”。

人类的记忆本来就是分层的:昨天的对话记得清清楚楚,上个月的事只记得大概,去年的事只剩模糊印象。这种“选择性遗忘”不是缺点,而是高效的信息管理方式。

DeepSeek想让AI也学会这招:近期的对话用高分辨率图片,800个token的“Gundam模式”处理,保证每个细节都没错;一天前的内容用中分辨率,256个token的“Base模式”,留住关键信息;一个月前的就用低分辨率,64个token的“Tiny模式”,只留核心结论。

打开网易新闻 查看精彩图片

这么一来,AI处理百万字的历史对话,可能只需要1000(当前)+256(近期)+64(远期)=1320个token,成本直接降了上千倍。既不用像现在的模型那样硬扛千万token的成本,也不会像“滑动窗口”那样直接丢掉老信息。

更长远的愿景是告别“分词器”。这个被业内称为“肮脏补丁”的东西,一直是大模型的痛点:遇到新词、公式就懵,还会把“apple”和“pie”这种相关词切碎,逼模型重新学习它们的关系。

而像素根本没这问题,不管是文本、表格、公式还是图片,全都是一样的视觉信号。AI“看”的方式,终于和人类阅读的习惯对上了。

现在的DeepSeek-OCR还只是1.0版本,它还做不到“选择性遗忘”关键信息,只能均匀压缩。但这已经足够撕开一个口子——AI圈不用再死磕算力,而是可以回头看看,是不是从一开始就选错了输入方式。

就像当年大家都在拼胶片相机的像素,突然有人发明了数码相机。DeepSeek的这次尝试,或许就是AI从“文本时代”迈入“视觉时代”的转折点。