基于古籍NER语义分析的城市历史空间解译研究|历史空间|古籍|地理|文献|新论文|解译研究

江西地名研究

关注我们，获取更多地名资讯

摘要：当前城市历史空间普遍面临认知浅层化的困境。基于相关古籍数据的空间解译方法存在效率低下、难以系统化提取空间信息等局限，本研究构建了基于命名实体识别（NER）与地理信息编码的古籍智能空间解译方法体系，以清代民俗志《燕京岁时记》为研究对象，通过文本清洗、命名实体识别、古今地名映射与地理编码等技术，系统提取了清代北京城102个空间实体及其关联的民俗活动，构建了“时间－空间－活动”三维数据矩阵，并通过地图编码系统将其映射至现代城市空间。研究揭示了清代北京城市空间呈现的季节性活动轮转、层级化功能分布与时空耦合等运行规律，为古籍数字化解译与城市历史空间活化利用提供了新的技术范式与实践参考。

关键词：城市历史空间；命名实体识别；空间解译；城市功能；《燕京岁时记》

0 引言

城市历史空间映射着城市发展的社会形态和文化记忆，其正面临着保护浅层化的困境——大部分保护利用方式仍停留在对其视觉观赏功能的静态维护。这一现象揭示了历史空间活化存在的系统性问题。

古籍文献作为城市历史空间的重要考证材料，如何从中挖掘信息、解译古人营城与活动方式，仍是一个亟待解决的问题。学界研究主要沿袭传统人文考证范式，聚焦海量文本考据与历史解释，这会面临两种系统性制约。

首先是方法层面的局限性：传统研究主要依赖研究者的个人经验进行知识提取。这种模式无法满足当今数据量激增的情况下，从文本中高效提取有效信息的要求。

其次是数据层面的割裂性：传统解译结果多缺乏地理空间数据支持。这种“文本黑箱”状态使时空特征、使用规律等关键数据信息被封存，无法为研究提供量化依据。

近年来，命名实体识别技术（named-entityrecognition,NER）的发展，为古籍信息挖掘提供了有力支撑。该技术可从文本中提取出特定类别实体（如地点、人物、活动等），快速得到可供分析的结构化数据。例如，谢韬基于NER中的LSTM-CRF模型，成功实现了《史记》和《宋词》中六百余万字的自动化映射；谢靖等通过构建微调模型实现了古代医学文献中专有名词的提取。

然而，NER方法在古籍处理的应用场景中，仍存在一定限制：空间信息与活动信息交织在叙述性文本中，难以系统提取潜在特征；古籍地名与现代地名存在差异，需进行历史地理映射来提取空间信息。

因此，本研究在NER结果的基础上，通过与地理信息编码技术结合，提取了《燕京岁时记》中102个空间点位信息，揭示了清代北京民俗活动与城市空间的耦合规律。其创新意义体现在三个层面：

（1）方法创新：构建了一套可视化的古籍空间信息解析技术体系，形成了从文本到空间的完整可复现链条。

（2）理论创新：揭示了历史空间中季节轮转、层级化分布等时空耦合规律，为城市历史研究提供了新视角。

（3）应用创新：通过历史地理映射，将多元功能的历史空间精准落位至现代城市基底，为量化研究与保护活化提供了直观的可视化决策支持。

1 解译背景

1.1 数据来源

《燕京岁时记》是研究清代北京空间格局与民俗活动的重要史料，由清代学者富察敦崇所著。全书按农历十二个月份编排，详细记录了清代北京城市空间内各个节令的习俗活动及对应的空间内容。

纵观全书，《燕京岁时记》具有明显的时空特征：一方面，全书按农历月份编排，呈现出鲜明的时间序列；另一方面，书中大量记录了各类活动发生的地点。这种时空结合的记载方式，为分析清代北京城的时空使用规律提供了清晰的材料。

1.2研究目标

本研究基于NER技术对《燕京岁时记》展开深入解析，构建了完整的“文本清洗与分词—实体识别与地名提取—古今地名映射与标准化—地理编码与地图可视化”方法体系。该体系有效提升了实体识别的准确率与空间定位的精确度，其核心目的在于建立一套可复制、可推广的文字型古籍空间解译范式，具体研究工作围绕以下三个层面展开：

（1）建立《燕京岁时记》文本的结构化数据库，系统提取书中的地点实体和活动实体。

（2）构建基于地点实体和活动实体的地理信息系统结构化数据，将历史文本与城市空间相链接。

（3）分析清代北京民俗活动与城市空间的季节性耦合关系，并将其映射至现代城市空间，提出未来城市历史空间活化策略。

2 解译过程

2.1文本清洗与分词

《燕京岁时记》文本处理是整个研究的基础环节，主要解决了古籍数字化过程中的数据标准化问题：

首先，将原始文档统一转换为UTF-8编码，确保后续处理过程中的字符一致性。根据原书的章节结构，将文本按照“正月.docx”到“腊月.docx”进行分割，便于后续分析各月份的空间活动特点。

在分词处理环节，基于jieba词典库，结合隐马尔可夫模型（HMM）进行辅助识别。jieba词典提供了基础的词汇切分能力，而HMM则通过计算单字发射转移概率，能够识别词典中未登录的专有名词，特别是古代地名。这种双重机制设计主要考虑到古代地名和文化活动在现代词典中往往缺乏对应条目，对识别精度造成影响。

采用随机抽样供3位专家核查，确保切分质量。最终输出包含五个处理后文件（ph1~ph5），分别代表不同处理深度的文本，以供后续实体识别（见图1）。

2.2实体识别与地名提取

在完成基础分词后，进入最核心的实体识别与地名提取阶段。该阶段的主要目标是从分词后的文本中精确识别出所有与空间相关的地名实体，同时保留其在原文中的语境信息（见图2）。

采用BERT-BiLSTM-CRF命名实体识别（NER）模型，构建历史地名的识别模型（BiLSTM隐藏层维度=256，Dropout神经元丢弃率=0.3，训练50轮），同时捕捉词汇的上下文语义信息和标签转移规律。

应用过程中，NER模型对文本中的地名实体进行识别并输出置信度分数。如图2所示，系统能够识别出多个地名实体（entity1~entity6），并筛选高置信度的地名实体，同时对低置信度实体进行人工复核。设置以下实体类别（见表1），提取《燕京岁时记》中的关键信息（见表2）。

为提高地名识别的准确性，采用双重验证机制：首先通过高置信度LOC（地点）标签进行初步筛选，然后通过《中国古今地名大词典》二次确认。当遇到文本中出现但NER未能正确识别的地名时，会通过字典匹配补充，直至获得最终的正确结果。

2.3古今地名映射与标准化

《燕京岁时记》中记载的地名与现代地名存在差异，因此，古今地名映射与标准化阶段旨在建立清代地名与现代地理位置的对应关系。通过《中国古今地名大词典》构建映射表，包含了L01~L0n的对应关系。如图3所示，该映射表将识别出的历史地名与现代地点进行配对。

在映射过程中，采用三级评分，即高分、中等分、低分（score:high，score:medium，score:low）来标识映射的可信度。高分匹配表示古今地名存在明确的对应关系，通常是文献中有明确记载的重要地标；中等分匹配表示存在较为可靠的对应关系，但有细节位置的不确定性；低分匹配则表示只能大致确定区域位置，精确度存在较大的不确定性。

对于无法直接找到现代对应的历史地名，采用基于历史文献和考古发现的推断方法。通过分析书中地名的空间关系描述（如“东距某处”“位于某处西南”），结合其他历史文献的交叉验证，人工推断地点大致位置（精度30m）。对于已不存在的地点，系统标记了其原址所在的现代地理位置。最终构建了“时间（季节、月份）－空间（经纬度坐标、清代地点、现代位置）－民俗活动（2.2中的命名实体识别结果）”的数据矩阵（见表3）。

2.4地理编码与地图可视化

地理编码与地图可视化阶段可将前述文本分析结果转化为直观的空间表达，使历史空间信息在现代地图上呈现。

如图4所示，将标准化后的地名数据进行地理编码，转换为地理坐标系统中的经纬度信息。将每个地点的坐标信息和历史地名编号导入地理信息系统处理，使历史地名与现代地理位置关联。并利用OpenstreetAPI进行点位可视化，针对历史空间信息的特点进行了多层数据注入（见图4）：

（1）地名信息：为每个地点添加了原始《燕京岁时记》中的描述文本（月份、清代地名、分类）。

（2）位置信息：添加古代城市空间的现代映射位置（现代地名、经纬度坐标）。

（3）原文信息（相关活动记载）。

3 结论分析

研究将提取的102个空间点位数据导入ArcGIS进行核密度分析，清代北京城市空间呈现出“中心集聚、功能分异、季节律动”的总体特征（见图5）。这体现了传统都城民俗活动与城市空间的三大耦合机制。

3.1中心集聚的同心圆格局

核密度分析显示，《燕京岁时记》记载的民俗活动点位呈现显著的向心集聚特征。102个点位中，有78个点位分布于中心城区内，核心区域（红色高密度区域）集中在内城周边，形成以皇城为中心的同心圆式空间结构。根据地理坐标分析可得，点位经度集中于116.01°E至116.64°E，纬度跨度39.85°N至40.39°N，平均距北中心点（约116.40°E，39.91°N）约7.4km，呈现典型的距离衰减规律。

这种空间分布格局体现了清代北京作为政治文化中心的空间组织逻辑：

（1）内城核心区承载着密度最高的民俗活动，如正阳门、地安门等交通枢纽节点，以及护国寺、隆福寺等宗教商业复合空间，形成日常活动的主要承载区。

（2）外围郊区则以妙峰山、西山八刹等大型宗教朝圣地为主，构成季节性活动的辐射网络。

核密度图的梯度变化直观反映了这一空间组织特征：由中心向外围活动密度逐渐降低，但空间功能逐渐丰富，形成“核心区域-次核心区域-外围区域”的三级空间体系（见图5）。

3.2功能分异的复合共生结构

从功能分类视角审视，102个点位主要涵盖了宗教与信仰场所（36.3%）、自然与观光景点（16.7%）、商业与市集（13.7%）、交通与防御节点（13.7%）、民俗活动地点（6.9%）、政治与行政功能场所（3.9%）等多种类型，呈现出功能多元化特征。其中，宗教与信仰场所占比超过1/3，庙会类活动出现频率最高，达24种（见表4），凸显其在清代百姓生活中的核心地位；商业与市集、交通与防御节点的高比例则反映了城市日常运行的基础支撑体系；自然与观光景点承载的郊游类活动覆盖7个月的时间周期（见图6），表明清代北京休闲游憩的城市功能已不可或缺。

同时，多种功能类型呈现出复合共生的空间特征，使得单一空间在不同时段承载不同活动，显著提升城市空间的利用效率与活力强度：

（1）交通与防御节点空间作为城市骨架，以北京内城九座城门为代表的节点不仅承担军事功能，更是重要的粮运、木材等商业物资集散地。

（2）护国寺、隆福寺等场所兼具“宗教与信仰场所-商业与市集”双重属性，体现了典型的庙会经济模式。

（3）太庙、地坛等政治与行政功能空间既作为大型礼制活动的场所，又在节庆之时对周边起到商业带动效果。

3.3季节律动的人流潮汐分布

清代北京城市空间使用呈现显著的“四时轮转”特征，“春夏外拓[见图7（a）]、秋冬回聚[见图7（b）]”的季节波动规律十分明显。正月作为岁首，民俗活动点位占全年总量的27.5%，集中体现了春节城市空间的高强度使用；四月（9.8%）、六月（8.8%）、九月（7.8%）形成次高峰，分别对应清明踏青、年中祭祀、中秋登高等重要节令。

以季节尺度分析，同样具有明显的分异特征：

（1）春季（正月至三月）：活动以城市中心区为核心展开，23个活动点位中约78%分布于内城节点，其中正月集中在城内寺庙空间，三月向郊区过渡[见图8（a）]。

（2）夏季（四月至六月）：活动呈现离心式扩散，25个点位中62%分布于城郊，以妙峰山等西部区域最为突出，体现自然环境对城市功能的季节性重塑[见图8（b）]。

（3）秋季（七月至九月）：活动呈多中心分布格局，城东运河二闸与城郊西山八刹共同构成活动轴线，登高、祭祀等行为使空间使用强度较夏季提升[见图8（c）]。

（4）冬季（十月至腊月）：表现出强烈向心集聚性，琉璃厂、正阳门等商业区集中全年约1/3的年节活动，什刹海等水域通过冰嬉功能转换延续空间活力[见图8（d）]。

3.4空间活化策略

基于上述分析，提出以下历史空间活化策略：

（1）重建时序化的空间使用节律。建议引入“时序化运营”理念，根据季节变化组织差异化活动。如什刹海水域空间可恢复“夏赏荷，冬嬉冰”的功能转换。

（2）激活功能复合化的空间价值。应根据空间的历史功能叠合特征进行复合化设计。如东岳庙、白云观等可在文物保护前提下重建“庙会经济”的现代形态。

（3）构建网络化的遗产保护体系。沿历史民俗活动路径划定文化遗产廊道，通过步道、标识系统建设，使公众完整体验城乡文化空间的串联关系。

4 结语

本研究证实，基于NER语义分析的古籍解译方法，相较于传统研究能够有效破解历史空间认知的“文本黑箱”问题。研究将其与地理编码技术结合，实现了《燕京岁时记》“图文-时空-语义”三重协同解析，揭示了清代北京城市空间“四时异趣，功能共生”的季节性活动轮转、层级化功能分布与时空耦合等机理。这种解译范式不仅为传统研究提供了新的技术路径，更为当代城市历史空间活化利用提供了实践参考，降低了大众对城市历史空间的认知门槛。

本研究的局限性仍需客观审视：技术层面，NER模型对文言虚词的识别仍存在一定误判率，如“花儿市”被拆分为“花”和“儿市”，空间实体定位偏移；理论层面，未能充分揭示古代城市管理对民俗空间分布的约束作用（如皇家仪式的空间垄断性）。

对此，未来研究可在两个方向深化：其一，开发针对文言古籍的自适应NER模型，通过引入注意力机制提升实体识别精度；其二，建立历史空间使用强度评价体系，结合计量史学方法量化时空耦合的经济社会效应。唯有实现技术突破与理论创新的协同共进，方能使城市历史空间活化为文化遗产保护之源。

作者：王扬子；姚朋；邵明；

张若楠；石淇榕；曹则煜；陶培元

来源：《城市建筑》2026年第1期

选稿：耿曈

编辑：欧阳莉艳

校对：王昱婷

审订：董进康

责编：耿曈

（由于版面内容有限，文章注释内容请参照原文）