关注我们 - 数字罗塞塔计划 -

打开网易新闻 查看精彩图片

# 大比武2024

本篇是参加“华夏伟业”杯第二届档案信息化公司业务与技术实力大比武(简称“大比武 2024”)的投稿文章,来自北京汉王影研科技有限公司,作者:千亮、徐福彪

NO.1

档案数据化处理的现状与挑战

- 1.1 -存量档案数字化

近年来,全国各级档案部门积极响应国家政策号召与人民群众档案利用需求,不断推进加强数字档案馆(室)建设。档案资源建设是数字档案馆(室)的建设重点与应用基础,而其中存量传统档案数字化是档案资源建设的重中之重。经过20多年的努力,全国各级档案部门的档案数字化工作取得了显著成果。

据统计,在中央一级,中国第一历史档案馆已完成800万件约8000万页档案数字化工作,占馆藏资源总数的80%。在(副)省级一级,浙江省档案馆完成近6000万页,占馆藏资源总数超过70%;云南省档案馆完成1.12亿页,占馆藏资源总数的80%;青岛市档案馆馆藏档案基本全部实现数字化。在县(市)一级,上海16个区县档案馆档案数字化已超过80%,部分区已完成全部馆藏档案数字化;江苏省太仓市、内蒙古自治区伊金霍洛旗档案馆都已完成馆藏档案数字化工作。根据国家档案局档案统计数据,截至2022年年底,全国各级综合档案馆馆藏档案共117148.7万卷,馆藏档案数字化成果28069.0TB。

- 1.2 - 档案数据化处理

档案数据化处理是指将档案中的信息内容转化为计算机可以识别、处理、分析和利用的数据的过程。这个过程不仅包括对档案进行数字化处理,还包括对档案中的信息进行提取、分析、挖掘和利用。通过档案数据化处理,可以达到以下目标与效果

①实现档案信息的深度利用,可以通过数据分析、数据挖掘等技术手段发现档案中的价值信息;

②提高档案信息的利用价值,可以为决策支持、科学研究等领域提供有力的数据支持;

③促进档案信息的共享和交流,推动档案工作的开放性和合作性。

- 1.3 - 档案数据化处理面临的挑战

然而,档案数据化处理面临着诸多挑战和问题。

首先

档案数据可能包括各种格式的文件,如纸质档案数字化副本、电子文档、图片、音频、视频等,这些文件的数据化处理需要不同的技术和工具,增加了处理的复杂性。

其次

档案数据可能存在质量问题,如字迹模糊、纸张破损、信息缺失等,这些问题会影响数据处理的准确性和完整性。

再者

大量的档案数据需要快速、准确地处理,这对数据化处理的效率提出了很高的要求。

最后

档案数据中包含大量的敏感信息,如个人隐私、商业机密、国家秘密等,如何确保数据在处理、传输和存储过程中的安全也是一个重要问题。

打开网易新闻 查看精彩图片

NO.2

档案数据化处理解决方案

面对上述挑战,可引入图像处理、OCR图文识别、智能编目、数据挖掘等AI技术,并优化数据处理流程和保障措施,最终达到高质高效档案数据化处理效果:

01、扫描与图像处理

使用高质量的扫描仪将纸质档案转换为数字图像,对扫描后的文件进行清晰度增强、去噪、裁剪等图像处理操作,以确保图像质量。

02、文字识别与转换

利用OCR技术将图像中的文字转换为可编辑的文本格式,如Word或WPS,对识别后的文本进行校对和编辑,以确保准确性。

03、数据分类编目与挖掘标记

对数字化后的档案进行分类编目,如按照文件类型、时间顺序、主题等进行分组,结合数据挖掘提取技术为每个文件添加元数据标签,如标题、作者、日期、关键词等,以便于检索和管理。

04、数据库建设与管理

建立档案数据库,将数字化后的文件和元数据信息导入数据库,使用数据库管理系统对档案进行统一管理,支持多种检索方式,如全文检索、关键词检索等。

05、档案共享与利用

通过网络平台或内部系统,实现档案数据的共享和远程访问;开发档案检索、统计、分析等功能,提高档案数据的利用价值。

06、数据备份与安全

对数字化后的档案进行定期备份,以防止数据丢失;采取加密、访问控制等措施,确保档案数据的安全性。

07、持续更新与维护

定期对档案数据进行更新和维护,确保数据的时效性和完整性;对数据化处理流程进行优化,提高处理效率和质量。

总之,档案数据化处理需要综合运用扫描、图像处理、OCR图文识别、智能编目、数据挖掘等多种技术,实现高效管理和利用。同时,要注重数据安全和保密。

打开网易新闻 查看精彩图片

- 2.1 - 图像处理

基于计算机视觉、AI机器学习、图文识别技术,针对档案图像文件进行质量检测、特征检测、文字检测、图像质量处理,实现对图像文件质量自动核查,合规性自动判断,机器自动处理,检测结果可直接出具检测报告或回传业务系统,并对图像缺陷与噪声进行智能处理,从源头进行数据质量把控。如针对扫描档案档图像和拍照产生的图像,我们经常面临着阴影、昏暗背景等问题的困扰,这些问题严重影响了图像的质量和可读性。利用深度学习技术中的卷积神经网络(CNN)等方法,对图像文件进行精细化处理,能够智能地识别并去除图像中的阴影部分,还原出原本清晰、高亮的背景。同时,对于昏暗的图像背景,能够自动进行亮度调整和对比度增强,使得整个图像变得更加明亮、细节更加丰富。

图像去阴影黑边、去黑点(左侧为原图)
打开网易新闻 查看精彩图片
图像去阴影黑边、去黑点(左侧为原图)

图像处理的功能主要包括:旋转、裁切、纠斜、去除装订孔、去黑边、去污点、去背景色、图像增强、图像加深、二值化等;图像检测功能包含分辨率、色彩模式、图像格式、空白页、黑边、倾斜、残图等参数;图像元素检测对图像中的印章、手印、手写体、插图、人像、条码、二维码等特征元素进行目标检测并输出提示;文本信息检测基于OCR文字识别,根据预先设置的敏感信息、涉密信息、关键字词进行检测并输出提示。

图像去黑边、去黑点(右侧为原图)
打开网易新闻 查看精彩图片
图像去黑边、去黑点(右侧为原图)

- 2.2 - 文字识别

OCR文字识别技术能够将档案数字化副本图像转化为可编辑和检索的文本。特别是手写文字识别技术能够将手写体档案图像转化为可编辑文本,便于检索、挖掘和利用,这在处理历史档案、书信、手稿等具有手写内容的文档时尤为重要。

采用机器学习、深度学习技术进行样本训练,可为全业务环节档案内容提供精准识别服务,支持印刷体文字识别、手写体识别、表格识别、卡证材料识别、多语种识别、单字定位、多页拆分、双层PDF、输入图像格式、输入版面格式、输出文本字符集、字自动定位、文档旋转角度、文字识别置信度等功能。

打开网易新闻 查看精彩图片

- 2.3 - 智能编目

结合自然语言处理(NLP)、文件切分、机器学习等技术,实现对电子档案资料的文件切分、智能命名、自动编目、自动归类,提升电子档案分类编目准确率,减轻业务人员整理编目工作压力。

打开网易新闻 查看精彩图片

- 2.4 - 数据挖掘

通过聚合文字信息和文字坐标信息,结合命名实体识别以及智能推理等方式,实现档案关键信息要素的自动识别与提取,通过知识提取与关联融合,帮助用户形成档案知识库,支撑语义检索、智能编研等档案知识服务应用场景,帮助用户提升档案资源的数据化挖掘效率与应用价值。

打开网易新闻 查看精彩图片

NO.3

档案数据化应用案例分析

以某单位的档案数据化建设为例,通过引入先进的图像处理技术,原本模糊不清的档案图像得到了显著改善,使得后续的OCR识别准确率大幅提升。通过OCR技术,大量的手写文字被成功转换为可编辑文本,极大地便利了档案的检索和利用。同时,基于NLP的要素抽取技术帮助工作人员快速定位到档案中的关键信息,如日期、人名、地名等,极大地提高了工作效率。智能编目技术的引入则进一步简化了档案管理的流程,降低了人工操作的复杂性和出错率。最终帮助用户建立档案整理与数字化制度数10项,档案与OCR信息系统标准5项,数字化扫描、自动图像处理100多万件,并批量OCR识别转换5000多万页,提取关键档案信息5万余条,辅助办理业务2000余件,每年可节省人员投入5人,利用效率提升150%以上。

AI赋能前后档案数据化处理及辅助业务办理效率对比如下表所示:

打开网易新闻 查看精彩图片

NO.4

存在问题与发展趋势

当前,AI技术在档案数据化处理中的应用已取得了明显成效,通过引入先进的图像处理、OCR文字识别、NLP要素抽取和智能编目等技术手段,可以显著提高档案数据质量与档案管理效率。但在实际应用过程中仍存在一些问题

首先,技术的发展速度远超过相关法规和标准的更新速度,这导致了一些新技术在应用时可能面临合规性问题。

其次,随着技术的发展,电子档案的安全风险也在不断增加,如何确保档案的安全性和隐私性成了一个亟待解决的问题。

展望未来,随着人工智能、大数据等技术的进一步发展,档案数据化处理的智能化水平将不断提高。同时,随着社会对档案利用范围、透明度和效率的要求不断提升,档案数据化处理的标准化和规范化也将成为必然趋势。

数字罗塞塔计划公众号致力于成为全国领先的档案信息化知识分享与交流平台。独木难成林,众创力量大!作为中立的第三方平台,我们将努力为广大档案信息化从业企业提供一个展示自身业务与技术专业水平的舞台,共同推动档案行业的进步与发展。

关注我们 - 数字罗塞塔计划 -