百度飞桨团队发布了PP-OCRv3,这是其超轻量OCR系统的第三次重大更新。相比前代,新版本在模型体积保持3.5MB的前提下,将中文识别准确率提升了5个百分点。
技术改进集中在三个层面:检测端采用DB++算法替代传统DB,识别端引入SVTR轻量骨干网络,同时新增方向分类器校正图像角度。这些调整针对的是移动端部署场景——既要精度,又要速度,还要控制包体大小。
打开网易新闻 查看精彩图片
实测数据显示,在骁龙855芯片上,单张图像全流程耗时降至100毫秒以内。这意味着普通手机也能流畅运行,无需依赖云端API。对于需要离线处理的金融、物流场景,这种"端侧优先"的设计思路显得务实。
团队开源了完整训练代码和预训练模型。从v1到v3,PP-OCR的迭代节奏稳定在每年一版,每次升级都围绕同一组矛盾展开:参数量的硬约束与精度的持续提升。这次他们给出的解法,是把Transformer架构做轻量化裁剪,而非直接套用学术界的完整方案。
热门跟贴