政企档案数字化、跨境合同处理、多语种资料归档——这些场景有个共同痛点:文档语种混杂、格式多样、版式复杂,传统OCR工具往往束手无策。要么只认中英文,要么只能处理JPG图片,遇到PDF多页文档、扫描卷宗、图文混排文件就罢工,逼得人工逐页转格式、逐行校对。

百度近期开放的文档解析能力,瞄准的正是这个缝隙。官方资料显示,这套方案原生支持20余种语言识别,覆盖JPG、PNG、PDF、长图、扫描件等全格式,综合识别准确率稳定在90%以上。核心卖点很清晰:不做人工预处理,原始文件直传直出,保留原有版式结构。

打开网易新闻 查看精彩图片

语言支持是首要差异化。除简体中文、繁体中文、英语外,日语、韩语、法语、德语、西班牙语、俄语、葡萄牙语、意大利语、阿拉伯语等主流商用语种全部覆盖,同时兼容周边小语种与常用欧亚语种。技术层面采用多语种统一深度学习基座,同一份文档内中英文、中日韩、中英法等任意混排,系统自动区分语种并精准识别,不会出现字符乱码或语种错乱。模型统一迭代,所有语种同步享受精度升级,开发者无需为不同语种单独配置接口。

打开网易新闻 查看精彩图片

格式兼容性上,这套方案跳出了"图片识别"的局限。JPG、PNG、BMP、TIFF等通用图片格式之外,普通PDF、扫描版PDF、多页卷宗PDF均可原生解析,自动分页逐页识别后合并全文,保留分页逻辑与段落顺序。长图、多栏排版、图文混排、表格与文字混杂、页眉页脚复杂的文档也能自动做版面分析,输出时保留原有阅读顺序与段落结构。

90%以上的准确率如何保障?官方技术文档披露了四层优化:前置图像预处理自动矫正倾斜、透视畸变,去除阴影噪点;高精度文字检测定位小字号、密集排版区域;多语种联合建模实现跨语种特征共享;上下文语义纠错修正形近字、同音字错误。标准印刷体公文、合同、书籍、报表的精度还可更高。

输出形态同样关键。识别结果保留原有段落、分行、层级、表格布局,生成带排版的规整文本,同时支持结构化字段抽取,可直接复制编辑、入库归档或导入Excel。接入方式以云端API、离线SDK两种形态开放,支持Python、Java、前端、服务端多语言,公有云调用与本地化部署均可适配。

打开网易新闻 查看精彩图片

落地场景已明确指向五类需求:政企档案数字化批量处理存量纸质档案与涉外公文;跨境外贸一键解析多语种合同、海关单据;教育出版领域批量转换多语种教材、期刊论文;办公OA实现纸质申请单拍照自动回填表单;金融财税场景高精度识别涉外票据、银行单证并自动整理台账。

技术边界方面,官方文档强调"严格基于产品能力规范,不虚构功能"。这意味着开发者接入时需关注真实场景适配——手机随手拍、老旧扫描件、低分辨率卷宗、密集排版等非标准工况虽在支持范围内,但具体精度仍需实测验证。90%的综合准确率足以满足正式归档与业务入库标准,但关键业务场景仍建议保留人工抽检环节。