技术的权杖交接,往往发生在不经意间。

整理 | 梦依丹

出品 | CSDN(ID:CSDNnews)

GitHub Star 超过 73.3k,百度 PaddleOCR 正式登顶全球最受欢迎 OCR 项目,超越长达近 40 年的行业绝对标杆——由 Google 维护的 Tesseract OCR。

打开网易新闻 查看精彩图片

截止发文, PaddleOCR Star 已超 73.7k

打开网易新闻 查看精彩图片

大模型时代的“眼睛”:为什么 OCR 突然变卷了?

在这个大模型满天飞的时代,大家都在卷参数、卷长文本。但我们心里都清楚一个尴尬的现实:如果你的 RAG 系统,连前置丢进去的复杂 PDF 表格都识别得错漏百出,后面的大模型再聪明也是“垃圾进,垃圾出(Garbage in, Garbage out)”。

OCR 就像是大模型的“眼睛”。眼睛如果高度近视,大脑怎么做决策?

正因如此,你会发现一个清晰的现象:从百度、腾讯、阿里到月之暗面、智谱、小红书,甚至国外的 HuggingFace 和 Mistral,国内外巨头与独角兽在 OCR 赛道上迎来了集体爆发。

他们抢的不是“认字能力”,而是抢占通往现实世界的高价值数据入口。

打开网易新闻 查看精彩图片

以小博大,5M 参数如何硬刚千亿模型?

PaddleOCR 开源于 2020 年,支持超 100 种语言识别,用户更是覆盖了 160 个国家和地区。

PaddleOCR 能在“百模大战”中脱颖而出,靠的不是盲目堆算力,而是两套“反直觉”的硬核逻辑。在今年的顶级视觉会议CVPR 2026上,其团队连续入选的两篇重磅论文彻底解开了它的秘密:

PP-OCRv5:参数不一定越大越好

在这个言必称“百亿/千亿参数”的时代,飞桨团队反其道而行之。他们通过精细化的“数据工程”(量化分析数据难度与多样性),训出了一个仅有 5M 参数的模型。但就是这个极其袖珍的模型,在手写、多语言等场景下的综合表现,竟然超越了包括 GPT-4o 在内的诸多千亿参数大模型,彻底打破了传统小模型的性能天花板。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/2603.24373v1

PaddleOCR-VL:破解“高分辨率计算困境”

处理高清文档时,大模型的视觉 Token 数量会呈二次方爆炸式增长。飞桨团队首创了“由粗到细(Coarse-to-Fine)”架构,先用轻量模块精准定位有效区域,再让核心模型(仅 0.9B 参数)进行处理。这一巧妙设计使其视觉 Token 数量暴降至竞品的 1/3,却在 OmniDocBench V1.5 全球权威榜单上拿下了 94.5% 的 SOTA 成绩,稳居全球综合性能第一。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/2603.24326

注:这两篇论文一作崔程将出席「2026 奇点智能技术大会」并现场带来「飞桨PaddleOCR最新技术与产业实践」主题分享

打开网易新闻 查看精彩图片

PaddleOCR-VL 在 OmniDocBench v1.5 评测中,以最少的视觉 Token 和参数量实现了 SOTA(全球领先)性能

打开网易新闻 查看精彩图片

从“看清”到“做完”:奇点技术大会上的“Agent+OCR”实战

在底层模型登顶之后,接下来的终极命题是:如何将这双极其锐利的“眼睛”,装到能够自动干活的 Agent 身上?

这正是企业数字化转型与 AI 落地的深水区。

在即将于 4 月 17-18 日在上海举办的「2026 奇点智能技术大会」上,我们荣幸邀请到了百度飞桨 PaddleOCR、PaddleX 等套件技术负责人崔程。

崔程不仅参与了飞桨 PP 系列 80 余个核心模型的研发,更是 10 余项国际 AI 竞赛(包括 CVPR/ICCV 等)的金牌得主。在本次大会上,他将带来题为 《飞桨 PaddleOCR 最新技术与产业实践》 的重磅分享。

这场分享拒绝纸上谈兵,将直接针对企业最痛的“复杂文档解析”场景,交出一份全链路的工程答卷。现场核心看点包括:

  • OCR 现状与痛点剖析: 从一线业务视角,拆解大模型时代在异形框定位(倾斜、弯折文档)与复杂表格理解中的真实挑战;

  • PaddleOCR 核心技术解码: 深入分享支撑 PaddleOCR 登顶的底层算法逻辑与“数据为中心”的优化策略;

  • PaddleOCR 3.0 重磅升级: 全面解读新一代模型与官方 API 的新特性,看它是如何与文心大模型打出“双向赋能”组合拳的;

  • PaddleOCR + Agent 工具解析: 现场演示如何将极致的 OCR 感知能力,深度融合进 Agent 自动化工作流中。从信息抽取到知识库构建,手把手教你打造高效率的复杂文档自动解析引擎。

如果你正在苦恼于大模型的 RAG 数据清洗质量,如果你想知道如何用最低的算力成本搞定最难的金融/医疗文档,这场硬核分享,绝对不容错过。

打开网易新闻 查看精彩图片

关于奇点智能技术大会

奇点智能技术大会是由深耕多年的「全球机器学习技术大会」重磅升级而来。为了让这些前沿技术真正能够“落地”,本次大会深度梳理了 12 大核心技术专题,力求覆盖从底层 Infra 基础设施到顶层 Agent 系统架构的全生命周期。

我们不再满足于宏观的趋势判断,而是深入到了“智能体工程落地”、“AI 原生软件研发”、“AI Infra 基础设施与运维”、“具身智能与多模态行业实践”等深水 区,力求还原那些最真实的工程决策过程。

目前大会全日程已出炉,诚邀全球 AI 产业参与者积极加入,共同捕捉前沿趋势,探索产业升级路径,推动 AI 走向更广阔的应用场景。期待与每一位同行者携手见证 AI 时代的新篇章 !