6月26日到27日,上海要办一场AICon全球人工智能开发与应用大会,50多位来自腾讯、阿里、华为、飞猪等一线企业的技术负责人和研究专家会一起死磕 Agent 落地的真问题:世界模型的下一次突破卡在哪里?原型玩得花,一进产线就崩,工程化到底差什么?研发体系不跟着重构,还能扛多久?就是在这种焦灼的背景里,上海人工智能实验室的青年科学家何聪辉确认会站在“人工智能前沿技术探索”专题的讲台上,公开 MinerU 从传统 OCR 一路冲到纯数据驱动范式的那条满是坑的演进路径。

你可能会觉得,文档解析不就是跑一遍 OCR,把图片变成文字?这想法天真得就像以为写完代码就不用调 bug。真正往大模型预训练或者 RAG 系统里塞过文档数据的人都清楚,公式、表格、阅读顺序、多栏布局,随便哪一个都能把数据工程师的耐心磨光。而 MinerU 的每一次重构,都是在跟这三个“硬骨头”死磕。整个演讲会直接把这套开源基础设施的里程碑拆成五层来看,那种从拼凑工具库到“数据为王”的转变,不是拍脑袋出来的,是打怪打出来的。

打开网易新闻 查看精彩图片

第一层,先看文档解析凭什么成了 AI 的“入场券”。LLM 预训练在吃掉海量高质量知识这件事上胃口越来越大,RAG 系统又催生出对精准检索的刚性需求,可现实是,大批 PDF、扫描件里的结构化信息根本喂不进去,不被清洗成干净可用的数据就等于不存在。何聪辉会把这个战场放到 OmniDocBench 时代的百家争鸣里去定位 MinerU,解释为什么在架构趋同之后,胜负手不在模型层,而在于谁能更快拿到经过高质量解析的文档数据。换句话说,不是模型赢了,是数据赢了。

第二层,硬核的技术进化史,三个版本踩过的坑一个没藏。最早的 MinerU v1 走 pipeline 路子,核心就靠 UniMERNet 搞定公式识别,靠 DocLayout-YOLO 吃下复杂布局检测,整条流水线被拆成预处理、解析、后处理、格式转换四步,听起来规矩,但工程落地时各种组件之间的衔接就是地狱。到了 MinerU 2.5 时,团队直接把架构拆成解耦式的多模态方案——低分辨率先摸清整体布局,高分辨率再细看具体内容,端到端模型那种 O(N²) 的 token 复杂度才被真正按下去。最新的 MinerU 2.5-Pro 更狠,在参数规模完全不变的情况下,整体评分从 92.98 拔高到 95.69,只靠数据质量的重新提纯就做到了同规模下的性能飞跃,这才是“数据驱动”最不讲武德的地方。

第三层,专门剥开那三座压在所有文档解析项目上的大山。公式识别里,UniMERNet 背后的百万级数据集和 CDM 视觉评测指标,直接让公式不再是“最难懂的乱码”。布局检测那边,一套统一了 21 类细粒度标签的体系配合 PageIoU 评估,把以前靠拍脑袋调的参数变成了可衡量的工程指标。表格这老大难,OTSL 压缩格式把 28 个 token 压到只剩 5 个,同时用旋转矫正的流水线对抗歪歪扭扭的扫描件。这些不是论文里的花活,是任何一个想搭 RAG 管线的人都会撞上的生产事故。

第四层,MinerU 2.5-Pro 里藏着的“数据炼金术”其实是一套闭环的大规模数据工程。多样性感知采样根据视觉特征聚类和难度自动挑出值得标注的样本,跨模型一致性验证让异构模型交叉打分,精准定位每一个模型的短板,标注环节再靠 Judge-and-Refine 自动校正加上定向专家标注,把训练数据的质量和分布控得死死的。这三步组成的协同数据引擎,是 Pro 版从拼凑工具箱变成数据工厂的真正内核。

第五层,文档解析的未来方向已经从“全量扫读”转向“智能点读”。何聪辉会透露 AgenticOCR 按需动态解析的思路,不再把整篇 PDF 暴力拆解,而是像人一样有目的性地只看需要的那一段。更让人坐不住的是 MinerU-Diffusion,基于扩散模型的非自回归解码路径,实测推理速度提升了 3.26 倍。这对那些一天要处理几十万份文档的生产系统来说,直接就是成本换算。

别以为这是纯粹的学术炫技。现场听众能直接拿到一套可落地的 RAG 数据清洗管线参考,包括怎么啃公式、表格、阅读顺序这些硬骨头;还能从 MinerU 的演变里看出一条所有垂直场景都在走的路——从东拼西凑的工具库走向垂直多模态大模型,最后归于数据质量和分布的数量级竞争。Google、华为、阿里等百家企业已经在产线里用了这套工具,GitHub 上标的 6 万颗星和超过 10 亿次的调用量,说明写代码的苦活和发 CVPR 的理论突破被拧在了同一根轴上,而何聪辉团队做的评测基准甚至成了 OpenAI GPT-5 和 Google Gemini 3 唯一采用的中国团队成果。

除此之外,这次 AICon 上海站还压了端侧 AI、世界模型与多模态智能突破、Agent 架构与工程化实践、企业级研发体系重构等 14 个专题论坛,超过 50 位资深专家不会只讲概念,而是把 Agent 从原型上到量产的整个链路剖开示人。