从数字史学到数智史学：基本路径与技术拓展|世界史|世纪|学术|学界|数字史学|数智史学|语料

2026年4月27日，上海大学文学院特邀同济大学德国问题研究所王思婕助理教授，做了题为《从数字时代到数智时代：基本路径与技术拓展》的专题讲座。本次讲座由上海大学历史学系焦姣副教授主持。讲座以世界史领域数字史学的发展困境为切入点，系统阐述了数字研究基本路径，并结合具体研究案例演示了从语料准备到模型可视化的完整工作流程。在此基础上，讲座进一步探讨了生成式人工智能对数字史学的技术赋能与现实局限，在理论与实践两个层面均为与会者带来丰富启示。

同济大学德国问题研究所王思婕助理教授

世界史领域数字史学的发展困境与基础设施建设

讲座开篇，王思婕从世界史学科出发，着重介绍了一些海外数字史学基础设施，例如“来自北美的移民信件”（Ausländerbriefe aus Nordamerika）项目。该项目发端于20世纪80年代，德国埃尔富特大学哥达研究图书馆（Forschungsbibliothek Gotha）收藏了大量德意志移民从北美寄出以及留在家乡的亲人朋友写给移居者的信件，经系统收集整理后，目前已成为全球规模最大的移民信件集，共收录约11085封信件，并持续向公众开放补充。2018年，牛津大学纳菲尔德学院的一个研究团队利用该数据库，追溯了美国德语移民在整个19世纪和20世纪初如何通过书信表达对“新”祖国的社会归属感以及对“旧”祖国的身份认同与情感态度，运用计算机文本分析方法探究移民群体重塑身份和社会融合的动机变化。王思婕以此说明，数字史学基础设施的建设具有深远的学术价值，国内亦有类似的史料数字化实践正在稳步推进，这类工作虽短期内难有显著成果，却是长期极具价值的数据库积累工程。

王思婕指出，此类海外大型数字史学基础设施项目往往投入周期长、协作规模大，确实难以直接移植到国内青年世界史学者的个体研究实践之中。但她结合自身研究经历强调，数字史学并不只有“大项目”这一种形态。对于世界史青年学者而言，完全可以从更小、更具体的问题切入，将数字方法作为单篇论文中的实验性工具，或作为学位论文、专著某一章节的辅助分析路径。她进一步指出，相较于中国史领域较为庞大的研究群体和相对成熟的数字资源平台，国内世界史研究者往往面临海外档案获取不便、现有数据平台难以直接适配、个体研究力量有限等现实约束。但这并不意味着数字史学无法进入世界史研究。研究者仍可结合自身史料条件与研究能力，在可控的工作量范围内建立小型历史语料库，并尝试文本分析、空间可视化、社会网络分析等方法。归根结底，数字方法的引入并非单纯的技术选择，而首先取决于史料条件、研究资源与问题意识之间能否形成有效匹配。因此，在研究初期认真评估具体问题是否确有引入数字方法的必要，尤为关键。

数字史学的基本研究路径

在厘清世界史数字史学的发展困境与建设方向后，王思婕进一步系统梳理数字史学的核心研究路径。她指出，地理信息系统（GIS）、社会网络分析（SNA）、主题建模（Topic Modelling）以及共现分析（Co-occurrence Analysis）是目前较为常见的数字史学方法。为直观展示方法的应用效果，她结合邱伟云基于“中国近现代思想史专业数据库（1830—1930）”围绕“世界”一词绘制的高频共现词丛及历年比例累加图，简要说明了共现分析在揭示思想史长期演变趋势与关键转折节点方面的有效性。她强调，目前学界主流研究普遍采用多方法融合的研究路径，四种方法各有侧重、互为支撑。

讲座现场

（一）地理信息系统（GIS）的应用与案例

在地理信息技术的讲解中，王思婕从经典案例入手，由浅入深地展示了GIS在历史研究中的阐释潜力。她首先介绍了约翰·斯诺（John Snow）医生1854年绘制的伦敦霍乱地图。1854年9月，伦敦苏豪区（Soho）爆发严重霍乱，短短十天内死亡超过500人，彼时医学界主流观点为“瘴气论”（Miasma Theory），认为霍乱通过空气中的恶臭或腐烂物质传播。斯诺医生走访受灾最严重的宽街（Broad Street），在地图上精准标注每一例死亡案例发生的地点，经空间分析发现死亡案例高度集中于宽街水泵附近。结合附近酿酒厂工人因只饮自家水或啤酒而几乎无人患病、一位远住数英里外的老妇因偏爱该水泵的水而每天派人专程取水并最终死于霍乱的细节，斯诺成功推翻瘴气论，证明霍乱经由水源传播。王思婕进一步指出，借助数字工具可以将该案例中的相关数据转化为可无限放大的动态交互地图，从而揭示传统阅读难以察觉的空间规律。为具象化操作流程，她结合Jupyter Notebook演示了如何利用pandas进行数据读取、整理与初步分析，并借助folium实现地图可视化，同时对比了matplotlib图与交互式Bokeh图在展示总体趋势和观察细部信息上的不同功能。

约翰·斯诺医生（John Snow）的伦敦霍乱地图

对比matplotlib图与交互式Bokeh图

结合Jupyter Notebook演示如何利用pandas进行数据读取、整理与初步分析

除了学界经典研究，王思婕还结合自己的研究论文“Mapping Germanness in Early 20th Century USA: Topic Modeling and GIS within a Small Corpus Framework”，分享了其在研究德意志帝国对美文化关系过程中，运用地理信息系统（GIS）的具体实践。首先，她利用19世纪末美国人口普查的官方数据，绘制了德裔美国人的人口分布热力图；随后，又将1902年威廉二世胞弟海因里希亲王访美的路线叠加到同一地理坐标系之中。空间分析结果显示，亲王的行程大体覆盖了德裔人口聚居的区域，同时也特别访问了哥伦比亚大学和哈佛大学两所美国精英学府。由此，数字工具从地理层面揭示了亲王访美并非单纯的礼仪性外交活动，很可能还兼具联络德裔族群、拓展学术网络的双重意图。尤其是在进一步查阅哈佛大学相关档案之后，她得以更具体地把握德裔教授参与德美文化活动的目的和方式，进而为考察德意志帝国发展对美文化关系的具体机制，提供了更明确的线索。王思婕也提醒，这项研究出于操作便利，直接以现代地图数据库替代历史地图，在方法上并不十分严谨，只是在该研究情境下，这一处理并未实质影响结果呈现。但若研究对象涉及行政区划变动较大的国家，例如德国，研究者则必须使用与历史时期相对应的地图资料，以确保分析结果的准确性。

数字工具操作演示图

（二）社会网络分析（SNA）的应用与案例

在社会网络分析方法的讲解中，王思婕着重介绍了一项关于“新教改革中马丁·路德社会网络”的经典案例。她指出，历史学家对新教改革进行了多角度的深入研究，但仍留有若干疑问：新教改革究竟如何从维滕贝格这座相对贫穷而孤立的小城向外传播？传统的宗教改革历史研究通常将新教的迅速传播归功于印刷术的普及或宏观政治条件。该研究的创新在于提出了一种结合了“关系扩散”和“结构扩散”的框架，由此综合了两类数据：一是路德的个人关系网络，包括1501至1522年的往来信件、旅行访问记录，以及前往维滕贝格大学追随路德求学的学生名册；二是空间与贸易路线网络，即16世纪的陆路、内河和海上贸易路线，以重构城市之间的空间联结网络。在可视化网络图中，方形节点代表路德个人网络所覆盖的城市，圆形节点代表路德未曾直接影响的城市；红色节点表示该城市在1530年以前已采纳宗教改革，灰色节点则表示未采纳。研究发现，红色节点并非均匀分散，而是倾向于形成集群，如不来梅集群、施派尔集群与埃尔福特集群。更为关键的发现在于：红色圆形节点常与红色方形节点相邻，表明贸易路线提供了一种二次传播机制。基于此，可以认为如果没有方形节点（路德），宗教改革没有足够的初始动力；但如果没有连线和圆形被点亮（贸易网络和间接传播），宗教改革就只会在少数几个城市打转，而无法形成全欧洲燎原的星火。

路德去过的城市与路德学生所在城市

王思婕还分享了自己运用社会网络分析对“大西洋桥”（Atlantik-Brücke）进行初步研究的经历。作为冷战初期推动德美关系的重要精英组织，大西洋桥在既有认知中通常被视为与基督教民主联盟（CDU）关系尤为密切，尤其是现任德国总理默茨曾长期担任该组织主席，更强化了这一印象。在课堂演示中，她主要将大西洋桥作为学生课程训练的案例材料，通过手工从11份材料中提取人物职业、地域与关联信息，构建了一个跨大西洋的关系网络，并由此发现，该组织同样与社会民主党（SPD）存在深度联系，特别是与一批曾在纳粹时期流亡海外的SPD成员往来密切。与此同时，汉堡由于媒体行业高度发达，成为整个网络中的关键节点，其重要性甚至超过了柏林。这一发现也与同期中央情报局（CIA）档案中的相关记录形成了呼应。她强调，目前借助NotebookLM等工具的确可以快速归纳文本中的隐含网络，但AI生成的结果颗粒度仍然偏粗，只有与研究者的人工整理和校验相结合，才能形成更可靠、也更具有历史解释力的分析框架。

冷战初期德美精英网络——跨大西洋桥

（三）主题建模与文本分析的应用与案例

在文本分析与主题建模部分，王思婕首先以自身研究为中心，详细演示了她对“全美德盟”会议文本开展文本分析的具体流程。全美德盟是19世纪末成立的一个德裔美国人全国性组织。围绕其历年会议记录开展主题建模，所要回答的核心问题是：德意志移民早在17世纪初便已登陆北美，为何直到19世纪末20世纪初才形成全国性的组织网络？针对这一问题，她提出了两项假设：其一，1871年德国统一后，德裔移民的民族认同感显著增强；其二，德裔社群为维护其在酿酒业与服务业中的既有利益，并共同应对日益高涨的美国禁酒运动，逐步形成了更强的组织化诉求。为验证上述假设，她继续用Jupyter Notebook进行代码演示，系统展现了从语料准备到模型可视化的完整研究流程。王思婕特别指出，在对历史文本的主题建模中，“统计最优并不等于人文最优”。算法通常以最小化“困惑度”（perplexity）为优化目标，但历史研究真正追求的，是具有解释力的语义结构，以及能够进入历史叙事的问题意识与研究结论。因此，研究者必须依据具体的历史语境与叙事逻辑，对模型参数与结果解释进行必要的人为干预。

从研究结果来看，模型输出总体印证了她最初提出的两项假设。文本中大量出现了与“饮酒”“个人自由”“民族主义”“语言与文化”以及“教育”相关的主题。同时，模型还识别出“出版”“体操俱乐部”“女性”与“森林”等此前未被充分预期、但具有解释潜力的主题。她认为，“出版”和“体操俱乐部”两类主题尤其体现出鲜明的德裔美国人历史特色。19世纪中后期，美国德语出版业和体操俱乐部的骨干成员中，有相当一部分参与过1848年革命，流亡美国后在德裔社群的政治与文化生活中发挥了重要引领作用，因此，这两类主题在全美德盟的会议文本中频繁出现是合理的。相比之下，“女性”议题的浮现则显得更具启发性。在当时普遍被视为相对保守的少数族裔文化语境下，这一主题的生成，说明女性在德裔美国人公共生活中的位置可能比既有认识更加突出。至于“森林”主题，她认为也很有进一步研究的价值，该主题与德意志地区长期形成的森林保护观念及其跨大西洋传播存在潜在关联，但这一判断仍有待进一步查阅档案加以验证。

与此同时，借助热力图进行时间维度分析，她进一步发现，“个人自由”与“饮酒”类的主题在1908年达到显著高峰，而“民族主义”类的主题则在1905年前后明显增强。这两个时间节点分别与全美德盟获得国会宪章后政治诉求的强化，以及德意志帝国开展官方对美文化外交活动的时间大体同步。王思婕认为，数字史学方法往往能揭示潜在主题、语义关联或历时演变趋势，由此研究者可以发现传统方法难以察觉的研究视角，从而提出新的假设，并在原始档案和文献中寻找证据加以验证与补充，推动历史研究形成更加丰富和多维的理解。同时，她还回顾了自己早期开展数字史学研究的技术痛点。在前人工智能时期，德文旧体字报刊的OCR识别往往会产生大量乱码，研究者通常需要先对文本进行人工清洗和格式整理，再配合停用词设置、分词处理和参数调试，以尽可能降低噪音对模型结果的干扰，整个流程不仅繁琐，而且很容易出错。相比之下，当下的人工智能大模型虽然不能取代研究者的史学判断，却已经能够在OCR后纠错、文本清洗、语义归类和多语种处理等环节显著减轻重复性劳动，从而在很大程度上降低数字史学研究的技术门槛。

生成式AI赋能“数智史学”

在系统梳理数字史学基本研究路径后，王思婕将讲座内容引入了更具前沿性的议题——生成式人工智能对数字史学的赋能。王思婕以Jana Keck的研究案例为参照，系统梳理了从传统人文研究到生成式AI辅助的三阶段工作流演进脉络。传统人文研究流程以人工阅读与解释为主，特点是解释力强但处理规模有限；经典数字史学流程引入了机器学习与文本挖掘，已包含机器学习与人机回环，但步骤分散、技术门槛较高；生成式AI辅助流程则在既有数字史学基础上整合了大语言模型，实现了语料导入与OCR辅助纠错、AI辅助清洗与标准化、提示词驱动的分类与主题归纳、AI辅助识别文本重用与相似段落，直至历史解释与论证写作的完整闭环。这一转变的核心是在既有数字史学基础上整合流程、降低门槛、减少重复劳动。

尽管AI工具为数字史学带来了显著便利，王思婕始终保持审慎的学术态度。她结合自己运用BERTopic进行主题建模，并借助生成式AI对输出结果作进一步归纳与解释的经验指出，AI的确能够迅速识别不同政党主要议题的词频分布，但它给出的结果往往“太完美、太符合常理”。例如，绿党对应气候与环境，社民党对应社会公平，几乎每一条结论都与既有认知高度吻合。正是这种“完美”反而令她感到警惕，因为当模型输出完全停留在研究者原有预期之内时，它不仅难以揭示新的历史问题，反而可能强化既有印象，使研究陷入对常识的重复确认。她进一步解释，AI在处理文本时会基于不同的分析颗粒度自动过滤其判定为次要或低价值的信息，而这些被过滤掉的内容，很可能恰恰包含着历史研究最值得追问的例外与断裂。正因如此，数字史学的价值并不在于让AI替代研究者得出标准答案，而在于借助技术手段扩大问题发现的范围，再由研究者结合具体史料与历史语境，对模型结果进行反复校验、辨析和解释。

在更宏观的层面，王思婕总结道，自己目前的工作流实际是“人工智能赋能数字史学，数字史学再赋能历史研究”。人工智能介入历史研究的主要价值在于协助研究者搭建小型图书馆与档案馆、降低数字史学的准入门槛、提升工作流程的自动化程度。但AI在史学研究中仍存在难以突破的结构性局限，尚不能直接取代专业史学研究者。一方面，AI高度依赖研究者前期搭建的工作流，包括语料的选择、预处理方式与解释框架的构建等；另一方面，AI缺乏历史时间观与线性发展思维，容易以当代训练语料所形成的模式去套读历史文本，也无法理解特定历史语境下的政治隐喻与修辞层次。尤为关键的是，AI训练语料存在显著的美英中心主义倾向，在处理小语种历史档案时会产生系统性偏差。基于以上分析，她建议青年研究者在运用数字工具之前，仍应首先夯实史学基本功。以她自身的实践经验来看，真正的困境往往不在技术层面，而在于缺乏足够好的研究问题，以及知识边界尚不足以支撑对结果的充分解释。在使用过程中，研究者应兼具历史批判思维与技术素养，始终坚持“以史料为基础、以问题为导向”的研究核心，审慎而积极地探索数字工具。

结语

王思婕在讲座中清晰展现了数字人文从基础设施建设、方法应用到AI赋能的完整脉络，同时保持了对技术工具的审慎态度。数字史学与数智史学的价值在于拓展解释空间、发现新关联，而非简化复杂历史进程。AI应服务于历史研究的问题意识，而非取代研究者的主体地位。史学研究者必须坚守史料批判精神，对AI输出内容进行严格检验与人文解读，将技术工具置于历史学根本方法论框架之下。唯有如此，“数智史学”才能真正实现对传统史学的拓展，而非简单替代。