1 月 27 日,两家最受关注的国内大模型初创公司,几乎同时放出了各自最新、也是分量最重的一次开源更新:
DeepSeek 发布并开源了 DeepSeek-OCR 2,这是其在去年震动行业的 DeepSeek-OCR 基础上的一次关键升级;Kimi 同样发布并开源了 K2.5,继续推进其超长上下文、多模态与「智能体化」路线。
表面看,这是两次方向不同的模型迭代。
DeepSeek-OCR 2 重新回答「模型究竟该如何『读』信息」,通过新的视觉编码机制,让大模型学习人类的视觉逻辑,把原本昂贵、冗长的文本输入压缩为更高密度的「视觉语义」。
简单来说,它试图改变 AI「读文档」的方式,让模型不用再把一整本文件拆成成千上万个字「硬读」,而是像人一样先看版面、抓重点,再理解含义。这意味着,将来让 AI 帮你读长文档、查资料、扒表格,可能会更快、更便宜,也更靠谱。
图片来源:DeepSeek
Kimi K2.5 则走向另一个方向:不只回答问题,而是把 AI 往「能干活」的方向再推一步。更长的记忆、更强的多模态理解,再加上对复杂任务的拆解和执行能力,指向的是一种更接近「数字助理」的体验,而不是一个只会对话的聊天窗口。
Kimi 就宣称其为迄今最智能、最全能的模型,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。
图片来源:Kimi
一个聚焦语言模型输入效率的变革,一个聚焦通用智能与复杂任务协作能力。但放在同一时间点,它们共同指向了一个更重要的问题:大模型的能力升级,正在从「参数和对话能力」,转向更底层、更工程化的能力重构。
AI 正在升级的,已经不只是更聪明的大脑。
从输入到干活的进化,国产 AI 的两条升级路线
去年发布的 DeepSeek-OCR,第一次让行业意识到,大模型基于单词和 Token 逐个输入的方式本身可以被重做。到了最新发布的 DeepSeek-OCR 2,更是解决了一个更具体、也更困难的问题:模型到底该怎么「读」一份复杂文档。
过去,AI 处理文档的方式非常机械。无论是 PDF、合同还是财报,本质上都是先被拆成一段段文字,再按顺序塞进模型里。这种方式的问题很明显:
一方面,长文档会迅速消耗上下文窗口,成本高、效率低;另一方面,表格、多栏排版、注释和正文之间的关系,经常在「拆字」的过程中被破坏。
DeepSeek 在 OCR-2 中给出的答案,是进一步强化其「视觉编码」思路,不再把文档当作一串文字,而是当作一个需要被「阅读」的视觉对象。
相比一代,OCR 2 的关键变化不只是压缩率,而是引入了更接近人类阅读习惯的逻辑,从上一代的 CLIP(切片)架构转向以 Qwen2 为基础的 LM(语言模型)视觉编码器。模型不再是同时、平均地处理整页内容,而是学会区分结构:
哪里是标题,哪里是表格,哪些信息彼此相关,哪些需要先读、哪些可以后看。
运作示意图,图片来源:DeepSeek
换句话说,它开始理解「版面本身就是信息的一部分」。
这种变化带来的直接价值,并不体现在「模型更聪明」这样的抽象评价上,而是体现在一系列非常具体的体验提升上。比如,当你让 AI 帮你快速看完一份几十页的报告时,它不再需要把每一个字都读完,才能给出结论;在处理复杂表格时,也不再频繁出现列错位、字段错配的问题。
更重要的是,由于输入被高度压缩,同样的任务可以用更低的成本、更短的时间完成。这也是为什么 DeepSeek-OCR 2 对真正的 AI 应用来说意义更大,它有潜力让 AI 更适合被放进真实的文档流程里,无论是检索、比对、摘要,还是结构化信息抽取。
在这个意义上,OCR 2 解决的不是一个模型能力问题,而是一个长期存在的「用起来不顺」的问题。
而相比 DeepSeek-OCR 2 把 AI 的「输入端」重做了一遍,Kimi K2.5 关注的,则是 AI 代理完成复杂任务的能力。
事实上,今天问题问得再复杂,AI 也能回答;可一旦涉及多步骤、多材料、需要反复引用上下文的任务,模型就很容易「忘前忘后」,或者停留在建议层面。AI 的能力已经相当成熟,不过很多用户还都是类似的体验。
Kimi 在 K2.5 中,继续把重心放在「长记忆 + 多模态 + 智能体」这条路线上,本质上是在尝试让 AI 从「答题模式」,走向「执行模式」。
一方面,超长上下文让模型可以在更长时间内记住对话、资料和中间结论,减少反复解释的成本;另一方面,多模态能力让 AI 不只处理文字,还能理解图片、界面截图甚至更复杂的输入形式。
更关键的,是对「智能体」能力的持续强化。Kimi 不再只是回答你「应该怎么做」,而是尝试把任务拆解成多个步骤,并且实现了「Agent 集群」,能在不同阶段调用不同能力,最终给出一个相对完整的结果。这种能力,决定了 AI 能否真正进入工作流,而不是只停留在咨询助手的位置。
图片来源:Kimi
这也是 Kimi K2.5 强调自己「更全能」的原因所在。它追求的,并不是某一个能力点的极限,而是能否承接更长、更复杂、更接近真实工作的任务链条。
大模型这一轮,开始卷「能不能真的用起来」
从 DeepSeek-OCR 2 和 Kimi K2.5 往外看,会发现最近半年的一批主流大模型,升级方向其实异常一致。无论是 OpenAI 的 GPT-5.2、Anthropic 的 Claude 4.5,还是 Google 的 Gemini 3,再到字节跳动的豆包 1.8、阿里巴巴的千问 Qwen3-Max-Thinking,它们不约而同地把重心从「模型有多强」,挪到了一个更现实的问题上:
让 AI 更深一步进入真实的工作环境。
这也是为什么,这一轮升级很少再强调参数规模和单点能力,而是反复围绕几件事打磨:记得住、看得懂、接得住流程、干得完事情。
首先被集体拉高的,是「记忆」这件事。
过去,大模型更像是短期对话高手,擅长当下回答,却很难长期协作。一旦任务变长、材料变多,就需要用户不断重复背景。最近这一批模型的升级,几乎都在解决这个痛点:更长的上下文、更稳定的状态保持,让模型能够跟着任务一路往前走,而不是走两步就「失忆」。
GPT-5.2 把长上下文和不同推理模式直接产品化,Kimi K2.5 则把超长上下文嵌进智能体流程,让模型在多步骤执行中记住中间结果。这些变化都在让 AI 不再只是回答一个问题,而是有能力帮用户做好一件事。
其次,是对「看」这件事的重新理解。
如果说过去的多模态更多是「能识图」,那么现在的升级重点,是「能不能看懂」。DeepSeek-OCR 2 代表的,是一种更激进也更务实的方向:不再把视觉当成文字的前置步骤,而是直接把视觉当作信息本身,让模型像人一样先理解结构、版面和关系,再进入语义层。
这种变化并不只发生在文档场景。无论是 GPT、Claude 还是 Gemini,都在强化对截图、界面、复杂图像的理解能力。
图片来源:Gemini
现实世界的信息,本来就不是一行一行排好的文本。当模型开始真正理解「图像里信息是怎么组织的」,AI 才可能更自然地嵌入真实环境,而不是只活在纯文本的对话框里。
再往下,是这一轮升级里最容易被忽视、却最关键的变化:AI 的角色转移。
过去,大模型更像是「顾问」,给建议、给答案,但不负责结果。而现在,越来越多模型开始被设计成「执行者」。Kimi K2.5 强调智能体,本质上是在让模型学会拆任务、接工具、跑流程;GPT-5.2 把不同推理模式与工具调用结合,也是在降低「从建议到执行」的断层。
当 AI 开始接手的是一整段流程,而不是某一个问题,对它的价值判断标准也随之改变,关键在于「说得对不对」,而在于能不能跑完、稳不稳。这也是为什么,这一轮升级中,「工程化」的重要性被反复提到。
国内 AI 在这一点上动作尤为明显。DeepSeek、Kimi、千问、豆包,都在强调模型是否好部署、是否好接入现有系统、是否能跑在真实业务里。另一方面,国内外 AI 过去一年都在强调通过更强的产品封装,把复杂能力隐藏在界面和服务之下。实际上目标一致,都是让 AI 不再停留在「演示」,而是「可用」「好用」。
写在最后
没有哪个模型做到了「通用智能(AGI)」,但把时间线再拉长一点看,更多变化发生在不那么「夺目」的地方:输入方式被重新设计,任务开始被拆解和接管,模型被要求在更长时间、更复杂流程中保持稳定。
当模型开始被认真地放进真实的日常生活和工作环境中,被反复验证、反复调用,它的价值衡量标准也随之改变。不再是谁的参数更大、回答更惊艳,而是谁更省成本、更少出错、更值得长期依赖。
从这个角度看,DeepSeek-OCR 2 和 Kimi K2.5 的意义,并不只在于它们各自解决了什么问题,而在于它们代表了一种更现实的共识:AI 迈入真实世界的下一步,必须迈出问答。
热门跟贴