DeepSeek反卷王炸！像素替文本token，算力成本大降还保96.5%精度

刘森森

2025-10-23 16:34 ·上海

2025年10月20日，AI圈没等来新模型参数翻倍的消息，反倒被DeepSeek-AI团队的一份开源研究炸了锅。

这份名叫DeepSeek-OCR的论文，表面看是做光学字符识别的普通成果，实则藏着改写大模型底层逻辑的野心——它要彻底抛弃文本token，让AI用“看图片”的方式读文字。

这步棋下得太反常识了。要知道，过去几年AI圈全在拼“上下文窗口”大小，从几千个token卷到百万、千万级，看似进步神速，实则早走进了死胡同。

被算力卡脖子的AI：上下文越长，死得越惨

大模型读文字的原理，其实藏着个致命漏洞。

咱们平时说的“上下文”，在AI眼里是一串“token”（可以理解成文字碎片）。

处理这些token靠的是“注意力机制”，但这机制有个绕不开的毛病：计算成本是token数量的平方。

简单说，上下文长度翻一倍，需要的算力和内存就得翻四倍。

这就像给人背书包，装10本书还能跑，装100本直接压垮。谷歌、微软这些巨头再有钱，也架不住这种“指数级烧钱”。

后来业界搞出了“分组查询注意力”之类的优化手段，本质都是拆东墙补西墙。比如把1000个token分成10组，每组内部单独计算，看似省了力，实则还是在跟“token数量”死磕，没解决根本问题。

到2024年，千万token的模型已经出现，但单条推理成本比普通模型高30倍，普通公司根本用不起。所有人都知道这条路走不通，可没人敢跳出来换条道——直到DeepSeek出手。

反常识破局：把文字变图片，10倍信息压成1份

DeepSeek-OCR的核心想法简单到离谱：既然文本token太费钱，那就干脆不用了，把文字都变成图片，让AI“看”着读。

这个思路的底层逻辑很接地气：人类写的文字本来就是二维的视觉符号，一张A4纸的文字拍成照片，信息密度比拆成token高得多。

就像咱们看报纸，一眼能扫半页，AI却得一个字一个字啃，效率差太远了。

团队做了个实验：一篇1万个文本token的文章，渲染成高分辨率图片后，通过他们的算法处理，最后只需要几百个“视觉token”就能代表。

这一下就把之前的“平方级成本陷阱”给绕过去了——原来要处理1万个token，现在只要几百个，计算量直接砍到原来的几百分之一。

但这里有个关键问题：高分辨率图片本身也麻烦。一张1024x1024的图，按普通视觉模型的处理方式，得切成几千个图像块，照样会引发“token爆炸”。

为解决这个矛盾，DeepSeek搞出了整个研究的核心——DeepEncoder编码器。这个3.8亿参数的模型，就像个“智能压缩师”，分三步把海量信息榨成精华。

3步压缩魔法：DeepEncoder的“精打细算”套路

DeepEncoder的设计逻辑特别符合直觉，说白了就是“先看细节，再抽重点，最后懂全局”，跟咱们读文章的习惯一模一样。

第一步是“局部感知”，用的是SAM-base模型的技术。

它会把图片切成4096个小方块，但不搞全局计算，只在每个小窗口里处理细节。

这就像看报纸时先逐行扫字，不着急联想上下文，既能看清每个字，又不会占用太多内存。

第二步“压缩提炼”是最关键的一步。

一个16倍的卷积压缩器会把4096个局部token，像挤海绵一样压成256个。

这一步就像读完文章后划重点，把没用的修饰词全删掉，只留核心句子，信息密度一下就提上来了。

第三步“全局理解”，交给CLIP-large模型来搞定。

因为只剩256个token，模型终于能“奢侈”地用全局注意力，把这些重点串起来理解逻辑。这时候就像读完重点后梳理文章结构，很快能搞懂整篇内容的脉络。

这套组合拳打下来，高分辨率图片的细节留住了，计算成本却降了下来。

跟其他视觉模型比，它既不搞碎片化猜测，也不硬扛海量token的计算压力，而是在内部完成了“压缩-提炼”的闭环。

数据说话：800个token干翻7000个，精度还更高

实验结果一出来，AI圈都安静了——这方法是真能打。

在10倍压缩率下，也就是用1个视觉token代表10个文本token，DeepSeek-OCR的解码精度能达到96.5%，基本没啥信息损失。就算压缩到20倍，精度也还在可用范围，对付简单的信息提取完全够了。

更狠的是权威基准测试OmniDocBench的数据：DeepSeek-OCR只用不到800个视觉token，就全面超过了需要近7000个文本token的传统顶尖模型。要知道，7000个token的处理成本，是800个的几十倍。

在实际应用里，这东西的效率高得吓人。单张A100-40GGPU一天能处理20万页文档，训练成本只有传统模型的1/7。就算是低质量的扫描件、多语言混合的文档，它的识别准确率也比老模型高45%。

前特斯拉AI总监AndrejKarpathy看完论文直言：“这可能是AI的JPEG时刻”，意思是它就像图片压缩技术一样，会彻底改变行业规则。

终极野心：模拟人类记忆，告别“分词器”时代

如果说10倍压缩只是开胃菜，那DeepSeek在论文结尾透露的“光学遗忘”机制，才是真正的大招——这东西可能让AI拥有“无限上下文”。

人类的记忆本来就是分层的：昨天的对话记得清清楚楚，上个月的事只记得大概，去年的事只剩模糊印象。这种“选择性遗忘”不是缺点，而是高效的信息管理方式。

DeepSeek想让AI也学会这招：近期的对话用高分辨率图片，800个token的“Gundam模式”处理，保证每个细节都没错；一天前的内容用中分辨率，256个token的“Base模式”，留住关键信息；一个月前的就用低分辨率，64个token的“Tiny模式”，只留核心结论。

这么一来，AI处理百万字的历史对话，可能只需要1000（当前）+256（近期）+64（远期）=1320个token，成本直接降了上千倍。既不用像现在的模型那样硬扛千万token的成本，也不会像“滑动窗口”那样直接丢掉老信息。

更长远的愿景是告别“分词器”。这个被业内称为“肮脏补丁”的东西，一直是大模型的痛点：遇到新词、公式就懵，还会把“apple”和“pie”这种相关词切碎，逼模型重新学习它们的关系。

而像素根本没这问题，不管是文本、表格、公式还是图片，全都是一样的视觉信号。AI“看”的方式，终于和人类阅读的习惯对上了。

现在的DeepSeek-OCR还只是1.0版本，它还做不到“选择性遗忘”关键信息，只能均匀压缩。但这已经足够撕开一个口子——AI圈不用再死磕算力，而是可以回头看看，是不是从一开始就选错了输入方式。

就像当年大家都在拼胶片相机的像素，突然有人发明了数码相机。DeepSeek的这次尝试，或许就是AI从“文本时代”迈入“视觉时代”的转折点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴