打开网易新闻 查看精彩图片

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

打开网易新闻 查看精彩图片

2025年,PaddleOCR发布了多个文字识别和文档解析模型工具,已经被业界广泛用于大模型训练数据和应用数据构建。其中仅0.9B的多模态文档解析模型PaddleOCR-VL凭借优异的产业级效果,稳居OmniDocBench官方榜首(截止模型发布时)。与此同时,团队也收集到各行业对于PaddleOCR-VL的大量使用反馈,秉承快速响应、持续进化的理念,对用户关心的效果问题做了重要升级,正式推出PaddleOCR-VL-1.5。PaddleOCR-VL-1.5不仅以94.5%精度大幅刷新了评测集OmniDocBench v1.5,更创新性地支持了异形框定位,在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实场景中均表现优异。此外,模型还新增了印章识别与文本检测识别能力,关键指标持续领跑。

PaddleOCR-VL-1.5已与昆仑芯、沐曦股份、天数、海光‌、昇腾、此芯科技、Intel、Arm、AMD等核心硬件厂商,以及百度智能云、国家超算互联网平台、硅基流动、九章智算云、魔搭社区、并行科技、Cherry Studio、Dify、Haystack、Novita AI 、PPIO、RAGFlow、Sophnet等平台伙伴持续集成,方便用户在不同硬件环境与平台应用中使用。PaddleOCR-VL-1.5已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

打开网易新闻 查看精彩图片

模型地址

https://www.wisemodel.cn/models/PaddlePaddle/PaddleOCR-VL-1.5

01.

效果速览

1.扫描场景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.倾斜场景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.光线变化场景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.屏幕拍照场景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.弯折场景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

02.

核心指标

1.OmniDocBench v1.5指标

总指标94.5%,领跑全球顶尖开源闭源模型。

打开网易新闻 查看精彩图片

2.Real5-OmniDocBench指标

Real5-OmniDocBench是基于OmniDocBench v1.5自建的多场景文档解析评估集合,涵盖了扫描、弯折、屏幕拍照、光线变化、倾斜5大场景,PaddleOCR-VL-1.5总指标92.05%,全面领先,总指标领先第二名Gemini3 Pro近3个百分点

打开网易新闻 查看精彩图片

03.

核心升级点

1.关键技术创新:创新性地支撑异形框定位,多场景精度SOTA

技术的实用性往往在复杂环境下见真章。面对现实中因拍摄角度、纸张弯折或倾斜而形成的非矩形布局,传统的矩形框输出难以实现精准映射。为此,PaddleOCR-VL-1.5引入了多边形异型框定位技术。针对扫描、倾斜、光线变化、屏幕拍照、弯折五大典型挑战场景,模型能够更加细腻地贴合文本、表格与公式的实际轮廓,提供更高质量的位置输出,能够稳定服务于多样化的实际业务环境。这项能力助力了PaddleOCR-VL在多种真实场景的的精度实现SOTA性能。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.落地关键能力升级:新增文本行定位/识别与印章识别能力

在基础能力的持续打磨下,PaddleOCR-VL-1.5进一步新增了文本行定位与识别及印章识别两项核心能力。文档的结构化解析往往始于对文本行逻辑的精准捕捉,其坐标精度与内容质量是诸多行业下游应用链路中不可或缺的底层支撑。而针对业界普遍面临的印章识别难题,新版本通过专项优化,有效缓解了复杂干扰下的解析瓶颈,旨在为各领域文档处理的规模化落地扫清关键障碍。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

文本行定位、识别能力

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

印章识别能力

3.特殊场景及多语种识别能力精进

文档解析的广度则体现于对长尾场景的支持。针对特殊符号、古籍、多语种表格及带有下划线、复选框的复杂版面,PaddleOCR-VL-1.5进行了针对性的算法精进,使细微长尾元素的识别更具鲁棒性。同时,模型进一步扩展了语种支持边界,实现了对藏语与孟加拉语的解析。

打开网易新闻 查看精彩图片

特殊字符

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

特殊场景

打开网易新闻 查看精彩图片

多语种表格

4.跨页表格自动合并与跨页段落标题识别支持

长文档的逻辑重构,核心在于消除物理分页带来的信息割裂。PaddleOCR-VL-1.5引入了跨页表格自动合并与跨页段落标题识别能力,旨在重建文档在空间跨度上的语义连贯性。通过精准识别并关联因分页而截断的表格与标题,模型有效解决了长篇幅解析中的断层现象。这种对文档全局结构的深度感知,不仅提升了信息的完整度,也为后续的语义理解与检索提供了更具逻辑一致性的数据支撑。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

跨页表格合并

5.推理速度持续提升

推理速度是企业部署模型时尤为关注的关键指标。依托于飞桨框架与FastDeploy端到端的深度优化,PaddleOCR-VL-1.5推理速度显著提升。在A100上以PDF文件进行测试时,模型每秒可处理1.43个文档页,较上一代PaddleOCR-VL提速17%,也明显优于业界同类文档解析模型。

打开网易新闻 查看精彩图片

04.

在线部署和使用

wisemodel提供了PaddleOCR-VL-1.5的镜像,可以在wisemodel上一键部署使用。

打开网易新闻 查看精彩图片

编辑:成蕴年

----- END -----

wisemodel相关:

系列模型:

打开网易新闻 查看精彩图片

关于wisemodel更多

打开网易新闻 查看精彩图片

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看