关注我们 - 数字罗塞塔计划 -
最近笔者在查阅GB/T 18894-2016《电子文件归档与电子档案管理规范》解读一书时,看到其中推荐的很多归档格式随着技术的发展已经不一定是当前的最佳格式了。
对此,本文将从最近的多个标准文件中提炼出相关规定,对各种类型电子文件的归档(或保存)格式进行对比分析,并结合自身的实践经验给出适合于当前实际情况的推荐格式。
一、不同类型电子文件归档格式要求
1.1 文本类电子文件
1、GB/T 18894-2016《电子文件归档与电子档案管理规范》
GB/T 18894-2016规定电子公文正本、定稿、公文处理单应以版式文件格式(PDF、PDF/A)归档。其他电子文件、电子文件组件可以版式文件、RTF、WPS、DOCX、JPG、TIF、PNG等通用格式归档;或者按顺序合并转换为一个版式文件。
2、GB/T 50328-2019《建设工程文件归档规范》
规定归档的电子文本(表格)文件应转换为OFD、DOC、DOCX、XLS、XLSX、PDF/A、XML、TXT、RTF格式。
3、GB/T 39362-2020《党政机关电子公文归档规范》
根据构成文件内容的数字对象类型的不同将电子公文分成文件处理单、公文主体、其他附属文件三个部分。文件处理单和公文主体(正本、定稿、历次修改稿等多个版本)都应以OFD版式文档格式归档保存,纸质(扫描)文件采用双层OFD、电子(网页、文本)文件使用单层OFD。
4、DA/T 32-2021《公务电子邮件归档管理规则》
公务电子邮件正文以版式文件格式归档(版式文件格式采用OFD,不具备OFD条件用PDF、PDF/A格式),附件可以版式文件、RTF、WPS、DOCX、JPG、TIF、PNG等通用格式;或将公务电子邮件及其附件按顺序合并转换为一个版式文件。
5、DA/T 88-2021《产品数据管理(PDM)系统电子文件归档与电子档案管理规范》
PDM系统文本类电子文件一般采用符合规定的版式文件格式,根据需要可同时保存原始格式。系统电子文件归档格式应具备格式开放、不绑定软硬件、显示一致性、可转换、易于利用等性能,能够支持格式转换。
6、GB/T 42107-2022《国家科技重大专项文件归档与档案管理规范》
电子文件应保证载体有效,应被机器有效识别和输出。归档的电子文件及其存储格式,元数据等应符合GB/T 18894的规定。规定文本型电子文件以XML、RTF、TXT、DOC(DOCX)、PDF、ODF等通用格式转换。
1.2 照片类、录音类、录像类电子文件
1、DA/T 50-2014《数码照片档案归档与管理规范》
归档的数码照片应为JPEG、TIFF或RAW格式,推荐采用JPEG格式。
2、GB/T 18894-2016《电子文件归档与电子档案管理规范》
照片类电子文件以JPG、TIF等格式归档;录音类电子文件以WAV、MP3等格式归档;录像类电子文件以MPG、MP4、FLV、AVI等格式归档,珍贵且需永久保存的可收集、归档一套MXF格式文件。
3、DA/T31-2017《纸质档案数字化规范》
纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定。
4、GB/T 50328-2019《建设工程文件归档规范》
图像文件以JPEG、TIFF格式保存;视频文件以AVS、AVI、MPEG2、MPEG4格式保存;音频文件以AVS、WAV、AIF、MID、MP3格式保存。
5、DA/T 78-2019《录音录像档案管理规范》
应以通用或开放格式收集、存储并归档录音录像电子文件。录音电子文件归档格式为WAV、MP3、AAC等,音频采样率不低于44.1kHz。录像电子文件归档格式为MPG、MP4、FLV、AVI等,视频比特率不低于8Mbps,珍贵的录像电子文件可收集、归档一套MXF格式文件。
6、DA/T 32-2021《公务电子邮件归档管理规则》
公务电子邮件的附件为独立文件时,录音类电子文件以WAV、MP3等格式归档;录像类电子文件以MPG、MP4、FLV、AVI等格式归档。
7、GB/T 42107-2022《国家科技重大专项文件归档与档案管理规范》
视频和多媒体电子文件以MPG、MP4、FLV、AVI、MOV、MPEG等为通用格式;音频电子文件以WAV、MP3等为通用格式。
8、DA/T89-2022《实物档案数字化规范》
实物档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定。
1.3 二维、三维(矢量)图形类文件
1、GB/T8894-2016《电子文件归档与电子档案管理规范》
在计算机辅助设计与制造过程中形成的科技类电子文件应按以下要求归档:二维矢量文件以SVG、SWF、WMF、EMF、EPS、DXF等格式归档;三维矢量文件,需永久保存的应转换为STEP格式归档,其他可根据需要,按给出的要求转为二维矢量文件归档。
2、DA/T 32-2021《公务电子邮件归档管理规则》
公务电子邮件的附件为独立文件时,二维矢量文件以SVG、SWF、WMF、EMF、EPS、DXF等格式归档;三维矢量文件应转换为STEP格式归档。
3、DAT 88-2021《产品数据管理(PDM)系统电子文件归档与电子档案管理规范》
二维图样文件以原始格式和符合规定的版式文件格式同时归档;三维数模文件以原始格式和STEP、PDF/E等中性格式同时归档。
1.4 公务电子邮件、网页、社交媒体类电子文件
1、GB/T 8894-2016《电子文件归档与电子档案管理规范》
公务电子邮件以EML格式,网页、社交媒体类电子文件以HTML等格式归档。
2、DA/T 80-2019《政府网站网页归档指南》
应以符合GB/T 33190-2016《电子文件存储与交换格式版式文档》或DA/T 47-2009《版式电子文件长期保存格式需求》要求的版式文件格式保存页面。页面的附件如果不能保存为版式文件,应保存为符合GB/T 18894-2016要求的归档文件格式。
3、GB/T 39362-2020《党政机关电子公文归档规范》
其规定电子公文的其他附属电子文件如社交媒体类以HTML、MHT格式保存。
4、DA/T 32-2021《公务电子邮件归档管理规则》
公务电子邮件正文以版式文件格式归档,附件可以版式文件、RTF、WPS、DOCX、JPG、TIF、PNG等通用格式;或将公务电子邮件及其附件按顺序合并转换为一个版式文件。
1.5 数据库文件
1、GB/T8894-2016《电子文件归档与电子档案管理规范》
以数据库文件形成的科技、专业类电子文件,应根据数据库表结构及电子档案管理要求转换为以下格式归档:以ET、XLS、DBF、XML 等任一格式归档,或参照纸质表单或电子表单版面格式,将应归档数据库数据转换为版式文件归档。
2、GB/T 50328-2019《建设工程文件归档规范》
数据库文件应以SQL、DDL、DBF、MDB、ORA格式保存。
3、DA/T 32-2021《公务电子邮件归档管理规则》
公务电子邮件的附件为独立文件时,数据库文件以ET、XLS、DBF、XML等格式归档,或将应归档数据库数据转换为版式文件归档。
4、DAT 88-2021《产品数据管理(PDM)系统电子文件归档与电子档案管理规范》
PDM系统结构化数据库应根据数据库表结构及电子档案管理要求转换为以下格式归档:以XML、ET、XLS、DBF等任意一种格式归档;参照纸质表单或电子表单版面格式,将应归档数据库数据转换为版式文件归档;如果采用原始格式和中性格式同时归档保存,电子档案管理系统应对二者建立关联。
1.6 其他专业类电子文件
此外,一些标准还规定了某些专业类电子文件的归档格式,如在GB/T 50328-2019《建设工程文件归档规范》和CJJT 117-2017《建设电子文件与电子档案管理规范》中,因建设项目类电子文件类别的特殊性,其规定了虚拟现实/3D图像文件可以WRL、3DS、VRMI、X3D、IFC、RVT、DGN等格式保存;地理信息数据文件可以DXF、SHP、SDB格式保存。
▲GB/T 50328-2019和CJJT 117-2017
对虚拟现实/3D图像文件与地理信息数据文件归档格式的要求
二、不同标准的共性、差异与缺陷分析
想必读者已经注意到,针对不同类型的电子文件,不同标准之间在归档格式要求上既存在共性,也有各自的特殊性。
2.1 共性分析
1、版式文件格式的核心地位
无论是电子公文,还是科技类电子文件,版式文件格式(如PDF、PDF/A、OFD等)都被广泛推荐作为归档格式。这是因为版式文件格式具有开放、不绑定软硬件、显示一致性等优良性能,很多指标满足DA/T 47-2009《版式电子文件长期保存格式需求》要求,能够保证电子文件的长期可读性和可访问性。
2、通用格式的广泛应用
除了版式文件格式,一系列格式标准开放、稳定的通用格式(如TXT、XML、JPG、SVG、WAV、AVI、STEP等)也被多个标准所推荐。这些格式往往历史悠久、简单易用、很长时间都不会发生变化,成为电子文件归档(保存)的重要选择。
3、标准化与灵活性的结合
在制定电子文件归档格式标准时,既考虑了标准化的需求,也兼顾了实际应用的灵活性。针对无法转换的、特殊的电子文件可将能读取该文件的环境、软件一并归档。如DA/T 32-2021《公务电子邮件归档管理规则》中规定“其他专用软件生成的电子文件原则上应转换成通用格式归档,无法转换的应将能读取该邮件特殊格式文件的软件一并归档”;GB/T 50328-2019《建设工程文件归档规范》规定“无法转换的电子文件,应记录足够的技术环境元数据,详细说明电子文件的使用环境和条件”。
2.2 差异分析
1、不同行业对于归档格式的要求不一致
党政机关、建筑工程、公务电子邮件、产品数据管理、国家重大科技专项等不同行业领域,针对同一类型的电子文件(比如都是文本类)推荐的归档格式存在明显差异,相互交叉,这会让一线档案工作人员无所适从。
2、音视频文件格式的多样性
对于录音、录像类电子文件,标准允许使用多种格式进行归档,以适应不同音视频文件的特点和保存需求,而且不同标准之间存在一定的差异。例如:被提及的录音文件格式包括AVS、WAV、AIF、MID、MP3、AAC等;被提及的录像文件格式包括MPG、MP4、FLV、AVI、MOV、MPEG、AVS、MXF等。
3、专业领域的特殊格式考虑
对于图形类文件、数据库文件以及专业类文件,由于设计、制造、生产过程中形成的电子文件具有特殊性,而且很多格式往往依赖于特定厂商的专业软件,因此标准也只能在推荐通用格式的基础上允许部分应用较为广泛的专业格式存在。
2.3 缺陷分析
标准再怎么考虑周全,像文件格式这种与信息技术密切相关的内容也跟不上技术发展的速度,因此,标准中存在一些与当前情况不符的缺陷也在情理之中。
1、个别格式已经不复存在,应当剔除。
比如得到多个标准中推荐的FLV格式,确实在2010年前后曾经风靡全球,成为视频分享网站的首选格式,但随着Adobe公司于2020年正式宣布停止支持Flash,作为Flash Video的FLV格式也被无情淘汰。同属Flash阵营的SWF格式也是相同的命运。
2、有些格式虽然名称相同,但实际并不是同一种格式,应具体说明。
比如DBF格式,一般认为这是早期小型桌面型数据库Foxbase,Dbase,Visual FoxPro等产生的数据库文件,但实际上有些大型关系型数据库的文件后缀名也叫DBF,如Oracle数据库。
3、对于形式越来越多样、内容越来越丰富的网站、社交媒体等新媒体简单地采用HTML格式显然无法满足要求。
网站的内容不只是网页那么简单,还有动画、音视频、样式表、脚本语言等各种构成元素;社交媒体就更加复杂了,论坛、博客、微信、微博、短视频等新的形式层出不穷,确实让人应接不暇。对于这些新媒体如何归档确实是一个令档案部门十分头疼的问题,但又必须面对,国际上通行的WARC格式应该是一个不错的选择。
4、同一类电子文件的归档格式过多,不利于后续管理。
众所周知,从电子档案长期保存的角度来看,肯定是归档格式越少越好,当然这也需要在归档的便捷性、包容性与档案部门的管理难度之间找到平衡点,但针对某种类型的电子文件推荐五种以上的归档格式还是太多了。
5、尽量避免“无法转换的应将能读取该特殊格式文件的软件一并归档”。
笔者理解文件格式的问题太复杂,这样要求实属无奈之举,但这句话即使写上去基本也起不到什么作用。这种做法在归档阶段应该说是可行的,但从长期保存的角度来看,只归档软件没有用,还得同时归档其所依赖的系统环境(操作系统、计算机设备等),但是几十年之后,很有可能系统环境都运行不起来,更不说专用读取软件了,因此还是得尽快在条件具备时完成格式转换。
三、各类电子文件推荐归档格式
在上述两部分内容对比分析的基础上,笔者给出适合于当前实际情况的各类电子文件推荐归档格式如下表所示:
以上格式相对于前两部分中的标准已经精简、归并了不少,自然也不能完全满足所有场景的归档要求,但95%以上的情况下应该是够用了。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 - 数字罗塞塔计划 -
热门跟贴