作者/何伟
编辑/刘暮
近期,哈佛燕京图书馆的古籍珍藏在“识典古籍”平台上线。在这批海量数据中,人们得以一睹宋刻《十诵律》、元刻《隋书》、明抄《永乐大典》、清抄《杜诗》等稀世典籍的高清书影,还能检索到齐思和、顾颉刚、容庚、郑德坤等学者留下的校勘痕迹与研究路径。
哈佛燕京图书馆素以馆藏丰富、孤本众多闻名,现藏古籍总数达13300余部(约15万册),包含宋元明清各代刻本及稿抄本。其中,善本数量约4000部,学术价值极高。
馆藏的一大亮点是地方志与丛书:3000余部方志约占中国大陆现存总量的39%,1400余部丛书则涵盖了半部《中国丛书综录》。此外,馆内还珍藏有《永乐大典》两卷、毛氏汲古阁抄本以及大量明清禁书,皆为难得一见的文献珍品。
〓 识典古籍哈佛燕京数据库网页截图
这批数据的上线,不仅实现了中西文献资源的合璧,更让这笔知识遗产以最高清、最完整的姿态重回中文世界的视野。
为了让这些沉睡的古籍真正活起来,2024年,由全国高等院校古籍整理研究工作委员会、字节跳动公益与北大数字人文中心联合发起“我用AI校古籍”行动。依托技术与平台的力量,将哈佛燕京图书馆7000部珍贵古籍转化为可检索的数字资源,免费向公众开放。
〓 参与校正古籍任务可获得的纪念品
这一盛大的古籍数字化工程背后,是一段跨越百年的学术因缘。2023年,哈佛燕京馆方将全部善本影像无偿捐赠给北大图书馆。而这一举动,是上世纪二十年代“文献双生”制度的跨时空回响。
1928年,燕京大学与哈佛燕京图书馆之间建立了一项特殊的藏书机制:凡由学社经费购置的中文文献皆一式两份,一份留存燕京,一份寄送哈佛。同时,双方藏书建设分工鲜明:燕京侧重西文参考书、西方汉学著作和近代期刊,哈佛则侧重宋元善本、罕见稿本和地方志,以此实现中西文献资源的互补 。
遗憾的是,随着战火燃起,这座跨越太平洋的学术之桥一度中断。诸多版本精良的古籍善本,带着未竟的学术使命,留在了大洋彼岸 。直到今天,通过数字化的方式,这段跨越百年的裂隙才得以弥合。
然而,单纯的“文献合璧”并不是终点,如何让这浩如烟海的史料真正为人所用,才是更深层的命题。在这个意义上,“识典古籍”平台上所能检索到的每一段文字、每一个条目,不仅是数据的展示,也在赓续着一条更古老、更具奠基意义的学术脉络——“索引”的传统。它让浩瀚如海的典籍可检、可证,让知识从分散的卷帙中焕发新生。
而在中国近现代学术史上,第一个以系统、严谨的方式为古籍建立现代索引体系的人,正是当年推动“文献双生”制度的洪业。他提出:“索引,是古籍之钥” 。
洪业,1893年生于福州。青年时期,他远赴美国求学,先后在哥伦比亚大学等学府深造。1922年,洪业受校长司徒雷登邀请,回国担任燕京大学历史学助理教授。
〓 洪业(左一)司徒雷登(左三)在燕京大学
当时的燕京大学,正如彼时中国的学术界:设备简陋,师资匮乏。图书馆除四书五经外,学术参考书寥寥无几。
洪业深感燕京大学需要大量基本参考书而没钱买,便向美国友人募集资金,又争取女院及霍尔遗产的资助,加上校长司徒雷登筹款,燕京图书馆藏书量迅速增长,成为当时全国最完善的学术图书馆之一。
然而,比起购书,洪业更关注知识体系的重建。当时,洪业放眼北京,京师图书馆和琉璃厂的旧书店藏书虽多,但缺乏系统编排,难以查阅。他意识到,如果知识如同散落的珍珠般无法被串联和利用,学术的进步将受到阻碍。他开始思考一个更关键的问题:应该如何把中国古人积累的知识组合起来,让未来的科学家、历史学家能够轻易索取?
他通过各种检字方法,做了几千张卡片,创立了“中国字庋撷法”(“庋撷(guǐ xié)”取“放进、抽出”之意)。这套方法不是简单的查字法,而是洪业将西方现代信息科学理念与中国古典文献学结合的产物。
〓 在美国时期的洪业
1928年,哈佛燕京学社在美国成立,洪业被聘为学社中国区的主要执行人。他在北平创立“引得编纂处”,并参照哈佛大学图书馆的工作流程,制定了一套严苛的编纂制度:卡片统一规格、编纂校对分离、设互校、复审与排印三道工序。他强调,编纂并非抄录,而是一种“整理学的训练”,要求学者在摘引时具备高度的判断力与准确度。
洪业在《引得编纂计划书》中写下:“凡学术之进步,必赖材料之可检。材料可检,则学术可积。”至今仍被视为中国现代目录学与信息学的思想源头。
〓 识典古籍网页截图
洪业的工作并不局限在书斋。他在图书馆制度、课程设置、人才培养等方面也有深度参与:他要求后辈“头脑清楚且独立”,重视外语能力与版本意识;对可造之才,推荐出国深造、再回国主持学科。许多后来在考古、历史、语文学领域卓有成就的学人,都受过这套“引得式训练”。在编撰索引之余,洪业与同事推动了燕京与哈佛之间藏书的互补与共享,使“文献双生”的理念真正落地。
自1930年起,《引得丛刊》出版,累计达64种81册,涵盖经史子集,如《周易》《礼记》《杜诗》等。洪业将自己的理论与经验汇集成专著《引得说》,系统阐述索引理论。他凭借《礼记引得序》厘清两汉礼学渊源,于1937年获得了法兰西儒莲奖(Prix Stanislas Julien)。
抗战胜利后,洪业赴美,担任哈佛燕京学社秘书,兼任讲学与出版策划工作。
1946年,洪业自美国回国,辞去燕京大学行政职务,重建引得编纂处。此后十年,是他学术生涯的第二个高峰。1946至1956年间,他与团队完成了《二十四史引得》《资治通鉴引得》《汉书引得》等大型索引,又陆续推出地名、人名、制度等专题索引,出版总数逾三十种、八十余册,几乎覆盖经、史、子、集诸部,成为 20 世纪上半叶中国文献学史上最系统的工具书系列。每一部《引得》收录十万至二十万条索引,洪业与同事以手抄卡片记录字词、页码与出处。
这些在常人眼中繁琐的劳动,却在当时搭建起了中国近代学术体系中最早的“数据逻辑”。
这些书的直接影响,是让讨论必须“就章有据”,不再停留于印象式转述;更长远的价值,则是把“可检索、可验证、可复用”变成学术交流的基础。洪业常说:“引得不是结论,是入口。”有了这入口,后来的研究者才能沿着清晰的坐标回到原典,完成比对与复演。
〓 识典古籍网页截图
《哈佛亚洲学报》刊登了洪业的著作表,列出他在这一时期完成的四十一种学术成果,其中大多为中文,也有英文著作。可以说,洪业创办的引得编纂体系,是二十世纪上半叶研究中国文化最重要的一系列参考书——它以现代方法重新整理古籍,用索引重建了学术秩序。自此之后,讨论中国人物、典章与制度,不能再含糊带过,必须指明出处;而那些历经千百年沉积的语义与史实,也因“引得”而逐渐澄明,“历史真理”的标准被重新提升。
洪业在学社年报中提出“引得编纂处经验应为中西目录学互通之范”,强调“标准化与国际合作的重要性”。他认为,学术必须被视为“公共基础设施”,不是某个学者的个人事业,而是社会应共同维护的知识系统。他多次在报告中指出:“学问若失其证据,终将沦为意见之争。”
值得庆幸的是,洪业“共同维护”与“保留学问证据”的理念,在今天得以延续。
2022年,字节跳动公益与北京大学数字人文研究中心共建“北京大学——字节跳动数字人文开放实验室”,新一轮古籍数字化合作从这里启动。同年10月,“识典古籍”平台上线,整合古籍影像、文本与智能检索工具,成为国内首个覆盖古籍整理全流程的开放系统,正是延续了洪业倡导的“可检索、可验证、可复用”。
截至目前,平台已收录四万三千余部古籍,支持全文检索、注释、标点与比对,让古籍从“束之高阁”真正走向公众。
2024年,“我用AI校古籍”项目启动。三万四千名高校师生与社会志愿者参与OCR识别与校勘,累计整理古籍一万九千余部,修订文本超十三亿字。他们在AI识别的基础上逐字比对、补录残缺,使洪业当年的“整理学训练”以新的方式传承下来。
AI改变了工作流程,让古籍整理的门槛大幅降低。一部传统古籍需要几个月才能整理完成,而现在只要几周时间。
〓 大众可领取古籍校正任务
华东师范大学古典文献学博士生刘帅便是一个典型案例。刘帅曾对古籍整理软件颇为怀疑。然而,2024年9月,他听说“我是‘校书官’”项目,一个月便整理出五千多万字的古籍,感到震惊:“我之前一年能整理几十万字就很了不起了。”
使用识典古籍,勘校速度的提升十分惊人:刘帅头一个月初步整理出200万字的古籍,这是他过去速度的20倍。接下来的三个月里,他校点、标注、排版、审阅的书目达到191种,总字数超500万。刘帅说:“AI在阅读大量人类成果后,对古文具备了相当的‘语感’。”
这种效率的飞跃,源于技术的更新迭代。
目前,平台文字识别准确率超96%,自动标点准确率达94%,命名实体识别(人名、地名、职官)接近98%。AI会用不同颜色标记识别不确定的“疑难字”,提示志愿者对照底本进行修改。
北京大学数字人文中心副主任杨浩指出,现在有了机器学习,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”
不只是专家学者,普通人同样可以在古籍校对中做出贡献。
九衛是一位机场的调度员。白天,他在机场做安全调度,到了夜晚便走进书房,一头扎进古籍。他从小热爱古籍,虽然听从家人建议选了民航运输专业,但一直没有放弃自己的爱好。成为“校书官”后,他对着古本核对,发现古籍中有些错字代代相传。能揪出这些错误,让他很有成就感。在识典古籍这个精神世界中,九衛得以将世俗压力抛之脑后。同时,在完成多项古籍校勘任务后,他加入了“进阶组”,可以和专家学者们一起探讨、校正。
〓 九衛在参与校对中
“识典古籍”以“智能+众包”的模式,使古籍整理从孤立的学者书斋,转化为可协作的公共行动,真正实现了洪业“共同维护知识系统”的理想。
为了激发公众持续的参与热情,平台设计了一套激励机制:志愿者可通过校对贡献,领取不同等级的奖励。前期的奖励是可拼在一起的冰箱贴,象征着知识的累积和协作。最高的荣誉,则是被称为“金典典”的奖杯——贡献需投入1000小时以上。这样高的要求,还是有50人完成了任务。同时,每一个参与校正的人,都会在识典古籍中留下自己的名字。这种将贡献度与奖品挂钩的设计,成功将严谨的学术工作,转变为一场每个人都能参与的文化活动。
〓 根据不同勘校贡献度可领取不同奖励
如果说洪业当年的“引得编纂处”,是学者以笔为器、以纸为田的工坊,那么今天的数字平台,正是对这种精神的现代化延续。不同的是,昔日十余人伏案抄录,如今,数万名志愿者与AI模型并肩完成同样的工作。
在这条从纸端到云端的道路上,技术并未取代学术,而是回到了洪业的原点——让知识能够被检、被证、被继。
1979年秋,洪业去世前一年,他与几位老友聚谈,提起故人,他叹道:“过世了,都过世了。杜甫有句诗说,访旧半为鬼,我现在是相知多为鬼。”朋友笑着说:“咱们也老了。”洪业答:“不久都过去了。”
但一切并没有过去。那些他写下的一张张卡片,如今化为数据库里的索引,那些散佚残缺的典籍,在无数人手中被重新点亮。学术的传承不仅只是专家的工作,而是依靠系统的可证与众人的协作——没有仪式,也不喧哗,它只是在人与古籍之间,静静地延续。
热门跟贴