民间文书的数字化建设与资源挖掘

——以上海交通大学馆藏为中心

文|汤萌、赵思渊

摘要:民间文书是2000年以来高校与公藏机构收集与整理规模迅速扩大的一类文献。数据库建设已经成为文献整理中的共识与必由之路。在数字人文等理念的影响下,数据库建设的方法论从保藏、检索转向文本分析、挖掘。上海交通大学在馆藏文献的整理与数据库建设实践中,结合参考了都柏林核心所提供的标准化元素与文献学研究所发掘的定制化元素。社会关系网络分析、交易行为聚类与文书格式分析是目前基于文献特征开发分析工具的方向。民间文书数字化建设的实践回应并丰富了当下数字人文研究中日益活跃的有关“数据基础设施”的讨论。

关键词:数字人文;民间文书;数据库;关系网络

1

引言

民间文书是中国基层社会研究的基础性资料,并且近年来在公藏机构与高校的文献整理收集中,占据越来越重要的位置。本文将讨论民间文书整理中的两个方法论问题:其一,民间文书这一分类涵括了大量异构资源,同时又面对多种不同类型的利用需求。民间文书数字化建设的技术路线,必须应对这两方面的问题。其二,民间文书的资源挖掘是有专业领域研究所驱动的,因此这一过程中必须整合相关学科的工作方法,探索形成新的协作模式。

本文所讨论的民间文书包括历史上民众在日常生活中所形成的各类文献,其保存形态与记载内容都区别于典章制度、正史、经籍等经典文献。这类资料在国内各大公藏机构及高校都有较长的收藏历史,但收藏与整理的高峰出现于2000年之后。

与此同时,由于历史学、人类学、民俗学、社会学等相关学科的研究方法转向,民间文书日益发展为相对独立的文献类型。在地权结构、赋役制度、民间信仰与社会秩序,以及民众文化等研究领域,民间文书作为核心资料对研究的推进具有特别重要的意义。

2000年以来,民间文书整理出版的数量不断增多。2000年以来海内外出版的各类民间文书汇编至少有55种,尤其是近10年来,几乎每年都有新的资料整理出版。在此基础上,近10年来越来越多的公藏机构参与到民间文书的收集与整理中来,或者注意到将原本馆藏中的民间文书视作一个相对独立的文献类型。例如,安徽大学徽学研究中心、上海交通大学图书馆、中山大学图书馆、清华大学图书馆、邯郸学院,都曾先后分别收集过数万件民间文书进入馆藏。此外,原本以档案等形式进入公藏机构的民间文书,近年来也逐渐被视为一个相对独立的文献类型。例如总称为“清水江文书”的清水江流域民间文书,自20世纪60年代以来,陆续入藏锦屏、黎平、天柱、三穗、剑河等地档案馆,并于2010年以“锦屏文书”的名义入选“中国档案文献遗产名录(第三辑)”。其中,锦屏县档案部门收集整理了3万余件,黎平县档案馆入藏6.1万件,三穗县有2万余件入藏,并且都分别制订了出版计划。

民间文书收集、整理的热潮,很大程度上是由历史学、人类学的相关研究议题驱动,逐渐发展而成的。民间文书研究,尤其是其中最大宗的契约文书研究,常常将研究领域的出现追溯至1939年傅衣凌于福建永安乡村中发现农民家中所藏的契约文书,进而展开乡村经济研究。科大卫对此评论道:“这是个牛顿和苹果的故事案例,只可能有一半真实性。田土契约在1939年,一定是一种非常容易看到的档案。我们的乡土研究者中,家里有田地的也大有人在,有田地的人大概也有契约。为什么大家没有发现可以利用地契来写历史,而需要等到傅衣凌这个意外发现才联想到历史来呢?”也就是说,民间文书成为一种“新史料”,是由研究方法与研究视角转换而促成的。

这意味着,民间文书的整理与数字化,也是理解文献性质的过程。在方法论层面,需要数字化建设中结合史料学方法有关文献性质的解释与图书馆学对于元数据结构的理解;在工作方法层面,需要专业领域学者与馆藏机构、馆员之间的有效协作。专业学者与馆藏机构之间唯有寻找到优势互补的合作之道,才能充分挖掘文献在学术研究与公共服务等多重意义上的价值。

2

数字化建设的需求与路径

如前文所述,国内收集、整理、研究民间文书已有数十年历史,且收藏量不断增加。根据21世纪初的调查,国内各大学、图书馆、档案馆和博物馆等机构所收集的民间文书至少在30万件以上。截至2014年,参与文献收集的公藏机构已超过20家,文献收藏数量可能超过100万件以上。到2019年,高校与公藏机构的入藏数量至少又增加了十多万件。随着入藏文献规模扩大及迫切的整理需求,有关文献数字化、数据库建设的研究也逐渐兴起。

笔者用“数据库”与“徽州文书”“清水江文书”“民间文书”“历史文献”等关键词进行交叉检索。所有检索获得的论文中共收集到336个关键词,图 1显示了其中词频高于2的所有关键词。如图所示,诸如数据库开发、特色资源数据库和数字化数据库和数据化等研究频率最高。编目、数字人文、元数据、数据标引等概念常常伴生出现,则显示出目前业界在探索民间文书数字化建设中的思考方向。

图 2 是对上述发表论文的历时性演变的分析。显然,2006年以来有关文献数据库建设的讨论迅速增长。值得注意的是,相关论文的数量在2012年达到峰值(14篇论文)后下降了约50%,此后也没有维持在一个较高的频度上。不过这可能并不意味着学者们对数据库建设的关注度降低,而更可能是因为数据库建设日渐成为民间文书整理研究的基本工作方法之一,并日渐形成一些成熟的工作方法。

另外值得注意的是,虽然数字人文这一概念在相关研究中出现的频率还不高,但在晚近的研究中日渐活跃。进而,如果追溯民间文书数字化建设历程,数字人文自始就是核心的方法论路径。中文学界第一个以地方历史文献为主题的数据库是2009年由台湾大学资讯科学系的项洁教授与历史系吴密查教授合作建立的台湾历史数位图书馆(THDL),这个数据库目前由台湾大学数位人文中心维护运营。该数据库不仅提供基础的全文检索、字段检索等功能,进而提供上下手契关联、人物关系、空间分布等更为复杂的分析功能。

较为遗憾的是,THDL在设计数据库结构与分析工具时基本上只关注契约这一文献类型。正如前文所述,民间文书至少有10种结构、功能各异的资源类型,每种资源类型有其自身的文献结构与书写格式。黄山学院基于其丰富的徽州文书馆藏,也在建设能够适用于更复杂类型的民间文书的数据库。不过目前还没有投入使用的数据库公开发布,这一建设路径还有待验证。

基于前人的经验,上海交通大学馆藏民间文书整理,及《中国地方历史文献数据库》建设中,提出两个工作方法。第一,尊重文献的产生来源与固有系统(归户性),将其作为在数据库中呈现、分析文献的核心路径;第二,以研究驱动整理,整理也是研究过程,数字化建设的导向是提供使文献可分析、可多维度观察的平台环境。这意味数字化建设中,元数据设计不仅是帮助使用者找到文献,还要能够发现文献之间的关联,以及文献与潜在的研究主题之间的关联。

3

以文献性质为导向的数字化建设

民间文书的数字化建设中,专业领域的学者阐明专业的研究需求,提出分析工具的设计理念,以及对文献结构的理解;图书馆员则以研究需求为导向设计资源组织揭示的方案,并推动数字源与元数据建设。这一模式中,元数据结构的基础仍然是通用的都柏林原则,但是其中涵纳了定制化元素。这些定制化元素来自相应的文献学研究。

以契约文书为例,这是民间文书中最常见的资料类型。图 3所示是一件契约如何以标准化的方式提取元数据元素,文献内容特征、物理特征、身份识别特征都是在都柏林核心的框架下设计的,但其中每一项元素的描述都依据民间文书的文献学特征与专题研究需求。这件契约出自上海交通大学馆藏,题名《康熙三十八年三月毕在中立卖契》,档号01111206010375,录文如下:

立卖契人毕在中,今因欠少使用,自愿将名字壹佰陆拾肆号,计田税壹亩壹分零贰毫叁丝,土名野坞坑;又将贤字肆拾伍号,计田税伍分贰厘伍毫叁丝,土名朱陈岭;又将复字陆拾捌号,计田税壹厘陆毫,土名里沙坵;又将贤字贰拾伍号,计田税捌分玖厘柒毫贰丝;贰拾陆号,计田税贰分陆厘,土名小岭墓。以上田陆号,四至归依清册为规,凭中立契出卖与 项名下为业。三面议定,时值九五价银玖两整,其银当日收足,其田随即过割管业。未卖之先,并无重复交易,倘有内外人等异说,俱系卖人承当,不干买人之事。今恐无凭,立此卖契存照。

康熙三十八年三月 日 立卖契人 毕在中

见人 江国章、刘芳五、江道源、张炽先

首先是人物信息。契约中出现的人物包括立契人、受业人(“出卖与”)、见人。除了抓取人名之外,编目人员还抓取了人名前后缀的描述词描述人物身份。这是因为,社会关系网络分析是目前民间文书研究的一个重要研究需求,这些人物身份信息有助于此后建立人物关系网络分析。另外需要注意的是,编目人员并未对这些身份信息进行标准化描述,仍然保留了其在文献中的原始描述。这一方面是因为元数据录入过程中,如果对人物身份进行标准化描述,人工判定的过程既降低效率,又可能增加错误率。另一方面是因为这些原始描述信息对相关研究也具有意义。

其次,资源类型的规范化描述使用了历史学者与图书馆员针对民间文书合作开发的分类法系统,将所有文献分为13类:契约、账簿、赋税、诉讼、行政、家谱、信件、日用类书与工具书、家礼、宗教、戏剧、医药。之所以设计针对民间文书的专题性分类法,未使用图书馆学或档案学系统中通用的分类法系统的原因在于民间文书相较于图书档案等文献具有其特殊的文献形态。总结来说,民间文书产生自民间日常生活所需,所具有的功能与所反映的观念主要是非官方的,并且是地方化的。而且民间文书具有实践性,“不是单纯的文人创作活动的文本,而是民众书写实践的产物,是嵌入于权力关系、组织行为以及个体和群体的社会能动性的一部分,既体现了客观历史过程与制度、话语、观念的互动,也包含着口头传统与书写文化之间的互动。”另外,基于内容分类是根据不同专题研究形成的后设概念,而后设概念往往会随着相关研究的深入与迭代而变化,因此上海交大也未采用按照文献内容分类的方法。相较而言,更为稳定并且反映文献性质的分类系统应当基于文献在其产生、使用过程中所承载的社会功能与书写形态。在元数据著录的实践中,文献的功能形态相较于其内容也更易于识别从而提高元数据录入的准确性。

再次,元数据结构中还设计了一项定制化元素“归户”。这个概念最初来自徽州文书的整理与研究,在目前的民间文书整理与研究中,它指代来自同一家庭、宗族、公产组织或其他社会组织的全部文献来源。明清赋役制度中,“户”是基本的登记单位,不同类型的社会组织也都能以“户”的形式予以反映。在著录元数据的实践中,归户信息通常不见于文献原文,而是来自于文献征集过程中形成的来源信息等。“归户”这一元素呈现了文献与产生文献的历史情境之间的联系,满足历史学家对于保留文献“有机”和“本地”的属性的需求。

元数据方案中的“土地描述”与“标的”是针对契约类民间文书设计的定制化元素。“描述”揭示文献所记载的交易对象的地理信息,是物的地理位置。民间文书中通常有所谓“小土名”,描述的通常是村落以内微观空间中的地理信息。这些地理信息不能纳入历史时期或现有的地理行政区划,也不能与现有的各类地理信息系统中的地名进行匹配。但是,这些信息对于描述文献所反映的时空情景具有意义。“土地描述”是为这样非标准化的地理信息而设计的,从而区别于依据行政区划标准化登记的地理信息。这类标准化地理信息笔者已经有另文讨论。

4

数字人文“激活”民间文书

面向研究需求的元数据结构除了满足基本检索、阅览需求外,还能为使用者带来什么?笔者将以目前正在开发中的《上海交通大学地方历史文献索引数据库》为例,说明上述元数据结构为进一步的文献分析工具开发带来的功能扩展。

毋庸讳言,目前的人文学研究中,数据库已经成为学者的必备工具。但是,人文学界对于数据库的批评与困惑也与日俱增。其中特别值得注意的是,人文学者强调文本、文献具有特定的社会脉络与时空情景。以“检索-获得”模式为导向开发的数据库,虽然极大便利了文献搜集,但是往往剥离了文献的“脉络”,对人文学研究造成了一定程度的遮蔽。一位历史学者提出这样的困惑:“数字化时代史学所面临的主要困惑之一,是史料的处理和运用。借助先进的电脑网络手段,我们可以快速、便捷地检索到大量史料,而受到知识结构、学术积累和理论修为的局限,我们却无法确保自己能够准确分析鉴别和合理地运用史料”。

因此,数字人文研究中已有学者强调,数据库既不仅仅是帮助学者找到资料,也绝不可能替代学者的研究,数据库所扮演的角色应当是建设新的研究环境,帮助使用者发现、观察、分析资料。数据库如何成为一种更好的研究环境?其核心在于理解研究需求与资料的性质。如前文所述,民间文书所反映的是民间日常生活中各类实践性活动的历史过程。这意味着,文本内容必须置于这样的一个历史过程的具体情境中才能予以理解。因此,数据库建设与分析工具开发的导向,就是帮助使用者发现文献与其时空情景之间的联系,从而激活文献。

基于这样的考虑,数据库首先提供基于档案号、时间、题名、归户、资源类型、地域等基本信息的检索、阅览功能。检索返回的数据可以根据时间、资源类型、归户、人物等信息实现数据可视化。对元数据信息的深度挖掘还开发了三种分析工具:社会关系网络、交易类型与契约格式。这些分析工具帮助使用者发现文献之间的内在联系,其设计理念也回应目前方兴未艾的数字人文研究对文献数据库建设所提出的讨论。

4.1 亲属关系网络分析

如上文所述,上海交大馆藏民间文书的元数据录入中,在抓取人物信息的同时还抓取了人物的身份描述信息。这些信息可以应用于亲属关系网络分析。根据文献中的“出”“受”等描述词,人物被区分为出业人(第一事主)与受业人(第二事主),设计者再根据人物的前后缀描述词将其区分为不同层次的亲属关系:家庭、宗族、姻亲、无关系。图 4 显示了基于这一方法呈现的一个文书群中的亲属关系网络。

亲属关系网络分析能够帮助学者从人的活动角度解读文献,以人的社会联系为轴,发现文献中所呈现的相互分离的经济活动、仪式活动之间的潜在联系。这些潜在联系又可能进一步解释乡村经济活动中的交易偏好。在数据库中进行数据分析时,契约类文献中的人物信息可以创建带有方向性的社交网络,而其他类型文献中抓取的人物信息所建立的社交网络则通常没有方向性,呈现为一个共现网络。

4.2 交易行为聚类分析

各类型的市场交易是现存民间文书中最大宗的记载内容。契约、账簿、赋税、诉讼等文献类型都与此有关。基于目前社会经济史的研究,民间文书中出现的交易关系可以归纳为13种。每一种交易关系都可以映射到一组民间文书中出现的关键词。数据库中所提供的交易关系统计分析工具,即基于这样的技术路线,抓取元数据中题名元素中的关键字自动映射到对应的交易关系。图 5 显示了一组文书中的统计结果。

4.3 契约文书格式分析

传统中国乡村中存在多样化的交易形式与文书格式。除了前文指出了买卖、借贷、租佃等多种交易形式外,文书格式也有契约、票据、合同、分关书等,文书格式与交易形式之间又存在着交叉关系。这些交易形式与文书格式的演变,能够反映传统中国社会中的市场秩序演变。我们在分析工具开发中,也考虑了这方面的研究需求。表 3 显示了文献书写格式的分词规则,在元数据的不同元素中通过切分抓取前置词和后置词进行文书格式分析。如前文所引用的《康熙三十八年毕在中立卖契》,契约中标识交易行为的“立卖契”这一描述可以拆解为三部分,“立”标识了交易中的权利出让,“卖”标识了交易形式,“契”标识了交易的文书格式。通过这样的方式,对民间文书进行大规模的书写格式量化分析就具有可操作性。

5

结语

经过近20年的发展,数据库建设已成为民间文书收集、建设与开发的必要组成部分;另一方面,数据库建设的方法论也逐渐从文献保存、检索转向分析、挖掘。这其中,数字人文方法论的引入是一个重要标志。在数字人文等方法论的影响下,文献的保藏、整理、研究不再判然分隔于各自的学科领域,而更需要视作一个整体。这意味着,就文献的保藏、整理方面来说,公藏机构需要历史学者或其他专业领域学者提供对文献性质与结构的解释;而在文献研究方面,专业学者比原先更为迫切地需求公藏机构对文献的深度整理与资源挖掘。解析文献的性质与结构,并以此为基础实现资源挖掘,将有可能整合不同学科领域的问题意识,形成互动更为紧密也更具活力的研究议题。

进而言之,“数据基础设施”的建设路径与方法论正在成为数字人文领域一个新的热点。民间文书数字化建设的实践回应了这一讨论。这一实践案例显示出,数字人文推动相关学科领域出现了两个方向的整合。其一,数字人文作为“方法论共同体”空前促进了研究方法的交叉渗透。来自历史学的文献学方法论形塑了数据库的信息提取架构,而来自图书馆学的元数据概念则重构了历史学的史料分析路径。其二,数字人文为公藏机构的资源挖掘带来了新的空间,文献利用本身即创造文献的价值。多元的研究需求不仅仅促进发展新的资源利用与分析工具,也赋予收藏资源本身新的价值。

因篇幅有限,文章注释及参考文献皆省。

作者简介

汤萌,上海交通大学馆员,研究方向为特色资源整理、数字人文;赵思渊,副教授,研究方向为明清社会经济史。

文章来源:《档案学通讯》,2020年第6期。

作者:汤萌、赵思渊

编排:张子悦