政府机构、企事业单位等大多都以各种文档作为信息之本,但大量数据存在于各种纸质文档中,要如何保证海量数据的存储与协作共享,以及解决纸质文档数据集中管理及安全问题?

打开网易新闻 查看精彩图片

悦保科技针对纸质文档电子化、数字化管理需求,基于行业领先的AI+OCR图像文字识别技术,推出了各种纸质文档识别、表格识别OCR服务及行业应用方案,竭力提升各行业文档数字化信息采集和管理效率。

#1

场景需求

在政府、企事业单位的工作场景中,涉及大量的纸质文档处理,具有如下需求:

1. 纸质文档信息量大,在其电子化处理过程中,单纯依靠手动录入效率极低;且这类低附加值的劳动完全可以由机器代替,人只需要对结果进行审核,可以最大化发挥人力价值;优化人力结构。

2. 人具有主观性,容易受到环境、生理和心理等因素的影响,人工处理文档难免会有失误的情况,录入准确性无法预知,而OCR文字识别技术则能够很好地避免以上情况。

3. 文档信息的自动识别录入,不仅提高办公效率、减少工作失误,还适应现代社会信息化快速发展的需求;顺应时代趋势,积极推进企业/单位自身的数字化、智能化建设。

#2

应用方案

针对以上需求,悦保科技推出的“文档识别&表格识别应用方案”,高度切合业务场景、识别精度高、保证数据安全,具体如下:

应用场景:政务机关纸质文件电子化、档案馆原始资料数字化管理、图书馆书刊电子化、教学档案电子化存档、论文检索与查重、印刷/手写资料电子化整理、企业无纸化办公文件管理、财报数据提取录入、合同比对与审核。

应用系统:电子政务信息系统、电子档案管理系统、教学档案管理系统、论文管理系统、企业办公文件管理系统、扫描仪/高拍仪等硬件系统等。

支持扫描、拍照自动导入各类纸质文档信息,瞬间生成可编辑的电子文件;

支持印刷体、手写体等多场景、多语种的高精度整图文字检测和识别;

支持文字自动定位和编辑处理,支持红章检测;

可识别字符类型全:中文(简体)、英文、日语、韩语、西班牙语、法语、德语等多语言,以及数字、特殊字符、日期、金额、多种字符类型混合等;

适应各种版式内容:横排、竖排、混排;

可识别标识类字符:条码(一维、二维)、CheckBox、▇等可定制符号;

打开网易新闻 查看精彩图片

支持云端API调用、SDK和私有化部署;在移动端和PC端均可使用识别服务

打开网易新闻 查看精彩图片

可通过任意摄像头或扫描设备将纸面信息自动录入客户端系统,并支持文档数据结构化还原处理

打开网易新闻 查看精彩图片

快速对识别结果进行编辑处理

打开网易新闻 查看精彩图片

红章检测功能,导出word文档后,红章可移动

打开网易新闻 查看精彩图片

SDK可适用于高拍仪、扫描笔等档案数字化加工行业伙伴的集成开发

#3

悦保AI+OCR-文档/表格识别特点

1. 集成公司核心OCR技术,识别性能业内居首;

2. 能力全面:支持多语言、多种符号类型识别,并不断更新迭代模型,扩充支持广度;

3. 准确率高:通用文本单字符识别准确率可达到99%以上,印刷体整体识别准确率达95%以上,手写体达90%以上,保证99.5%以上产品可用性;

4. 鲁棒性强:支持多场景、任意版面、任意背景,可容忍透视畸变、光照不均等复杂场景,并可实现自动裁边、修正倾斜、角度旋正等。

5. 识别速度快:单字符识别毫秒级响应,全版面识别<3 秒,满足用户高时效要求;

6. 支持多种识别模式:自动扫描识别、智能检边识别、拍照导入识别等;

7. 识别后可返回文字框位置与文字内容,并可根据文字在图片中的位置进行结构化整理工作(定制服务类);

8. 性价比优,减轻购买方负担。

#4

支持的系统接入方式

1. 客户端SDK接入

提供客户端SDK支持的能力,可以将证件识别、车牌识别能力集成到客户端使用;现有SDK-安卓版,其他支持版本可做定制化开发。

2. API调用

开放云端API,客户可直接调用接口使用悦保OCR产品服务。

3. 私有化服务包接入

提供私有化服务包部署能力,支持单机部署、多机部署,支持CPU/GPU本地服务器部署,适配主流GPU显卡,支持win/Linux系统

附:人工录入与文档识别的性能对比

对比项

人工录入

悦保文档/表格识别

信息采集原理

对照各种文档或表格,在电脑或手机中逐字录入相应信息

采用“模式识别”的仿生技术,由计算机去辨识文字,并转化输出为可编辑文本

图像采集录入方案

档拍照/扫描,仅留存图像存档备案,不能将图片中的文字信息转化为录入信息

文档拍照/扫描,可自动识别并提取图像中的文字内容录入到系统

速度

根据采集信息量,一般人打字速度平均为60字符/分钟,录一份500字的文件大致需要6~10分钟

悦保文档识别速度为毫秒级,从扫描到识别录入一页文档的时间仅需要2、3秒

数据精度

手工录入难以避免人为差错,办公人员的情绪、生理等因素都容易造成工作失误,影响数据精确度

计算机识别技术稳定,不必考虑人的因素和环境的因素

效率成本

机械性劳动附加值低,效率低,工作效能无法提升

效率高,节省更多人力投入高附加值工作,人力价值得到更好的发挥