江西地名研究

关注我们,获取更多地名资讯

摘要:上海作为中国共产党的诞生地,留下了丰富的红色资源。在制作红色文化产品时总是需要花费大量的人力物力去搜集和分析资料,进而提取有用的信息,且这些产品的表现形式较为单一,没有形成系统的技术体系去完善资源挖掘分析、数据整合存储以及多样可视化表达。为解决这一问题,本文以上海红色地名文化为例,通过研究多元历史文化综合数据库结构、基于语义分析的红色地名文化挖掘技术、基于多元时空叠加的可视化表达三个关键技术点,形成以空间地理信息为基础的多元历史文化成果转化体系,并在系统开发和红色图集制作方面得到了较好的应用。

关键词:红色文化;多元历史;空间信息;自然语言处理;可视化表达

0 引言

上海,中国共产党的诞生地,近代中国光明的摇篮,中国工人阶级的大本营,中国革命运动的早期指导中心。党成立后党中央机关长期驻扎上海,留下了丰富的红色资源。随着现代科技社会的快速发展,在充斥着大量快餐文化的周边环境里,公众对具有传承价值的多元红色历史文化愈加关注,同时在地名成果应用的深化时期及“四史”学习教育的双重背景下,政府部门对多元历史空间地理信息文化的需求也在日益增加。如何从海量的文化资料中高效地提取有用的信息,如何存储和利用这类红色文化数据,如何做好红色文化产品的可视化表达,是文化研究道路中必须思考的问题。

随着科技的快速发展,人工智能技术逐渐渗透到生活的方方面面,作为人工智能主要技术之一的语义分析,已被广泛应用于围棋对弈、自动驾驶、图像识别、语音识别等多个领域。语义分析通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义解析,从而实现理解整个文本表达的真实语义,而红色文化的研究本质是对大量历史资料的挖掘和考证,正好符合语义分析的范畴,在信息自动化解析上能够大大减少人力成本。目前国内外对语义分析的研究正处于蓬勃发展的阶段,既有大量的开源技术分享,又有大型互联网公司开发平台服务,如DINFO-OEC平台、百度语言处理应用技术、自然语言处理与信息检索共享平台等,给研究提供了有力支撑。

本文在地名普查成果的基础上,研究基于语义分析的红色地名文化挖掘技术,探索其多元历史空间地理信息的数据价值,通过构建综合型空间文化数据库、创新多元时空叠加的可视化表达技术,形成有标准数据结构可依、有历史关联资源可查、有时空表达技术可辅的成果转化体系,拓展多元历史空间信息在人文方面的应用前景。

1 多元红色历史空间信息简介

为了拓展地名文化研究的广度、深度和厚重度,提出多元红色历史空间地理信息的概念,主要从红色历史资源的内容、种类和表达等多个角度出发,对其进行合理的专题分类和准确的空间定位,通过语义分析工具的挖掘、文化型综合数据库的存储、时空叠加的地图可视化表达,多维度多层次地叙述红色故事,弘扬历史文化。

数据种类的多元性:空间地理信息、文本属性信息、三维模型数据、多媒体数据等,能够满足多种数据表达形式的需求。

数据内容的多元性:历史地理实体、历史人物、历史事件。其中历史地理实体是具有空间地理位置的实际存在的建筑物,是历史人物、历史事件的承载体;历史人物是历史事件发生的主导体,具有一定的代表性;而历史事件是联系历史人物和地理实体的纽带,是历史信息的主要表述。通过三者之间的相互关联性,能够清晰反映在某个时段内发生的历史概况。

表达形式的多元性:以时间线为脉络,贯穿1919~1949年这30年期间上海发生的所有红色事件,通过时光回溯,在不同年份的老地图上展示每个年份发生的历史事件,以历史地理实体的空间位置为依托,凸显每位历史人物在上海的活动轨迹,从而给整个画面表达效果增添生命力。

2 多元红色历史文化综合数据库研究

本文围绕多元红色地名文化内容(历史地理实体、历史人物、历史事件),从有考证的历史资料中提炼挖掘相关信息,建立具备结构化和非结构化特征,既有空间数据又有多媒体数据的多元历史文化综合数据库,如图1所示。

非结构化数据存储形式主要针对多媒体数据,严格执行多媒体信息命名形式,如“实体编号_序号”,以不同的数据类型作为文件夹名称,并将多媒体路径存储在数据库中。

根据整理的历史地理实体、历史人物、历史事件,分别建立对应的数据表单,并根据三者之间的关联性,利用唯一字段做好表单的相互挂接。其中,历史关联表无需人工新增记录,主要通过历史地理实体、历史人物、历史事件的联动性进行入库。例如,新增地理实体、人物或者事件时,根据文字信息遍历历史实体表、历史人物表和历史事件表,如果发生信息交叉,即可将三者的编码进行挂接,整理成一条记录,新增到关联表中。

3 基于语义分析的红色地名文化挖掘

自然语言处理(Natural Language Processing,NLP)又称语义分析,是计算机科学领域与人工智能领域中的一个重要部分,能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。在应对资源丰富、信息多元、内容深刻的文化探索时,语义分析因其高度智能化、自动化以及高效性逐渐成为历史文化挖掘研究的重要方向。

本文通过收集、梳理上海市地名普查成果的各类资料,提取与红色元素相关的信息,通过研究自然语言处理相关平台的机器学习、自动分词、词频统计、关键词提取等功能,分析其在红色地名文化语义分析方面的优缺点,如表1所示。

本文主要借助中文词法分析工具包,利用《人民日报》分词和词性标注语料库训练样本,在保留语义分词及信息提取的基础上,融合地名数据库进行二次开发,从文本中抽取特定的事实信息,比如从中国共产党第一次全国代表大会事件中抽取出详细情况:发生时间、地点、人物、概况等,实现时间识别、中文人名识别、事件摘要提取、地名地址识别等功能;在地名普查成果数据库中通过模糊搜索和匹配识别来完善红色信息的专题分类、实体定位等模块,以此构建高程度自动化的红色地名语义识别模型,如图2所示。

在研究过程中,基于语义分析的挖掘方法能够对文章语句进行有效分析标注,节省了文章阅读的时间,提高了文章中人名、地名、时间的挖掘效率,很大程度上减少了信息提取的人力成本。将提取出的信息分门别类地存入结构化数据库中,可供用户查询以及进一步实现基于多元时空叠加的可视化表达。

4 基于多元时空叠加的可视化表达

在多元历史综合数据库的基础上,以历史地理实体、历史人物、历史事件为展示主体,以三者关联性为纽带,以历史时间为脉络,研究基于多元时空叠加的可视化表达技术。例如,以历史人物为主体,通过时间推移及历史事件的发展,在地图上呈现其在上海的活动足迹,表达思路和形式如图3所示。

图3中,根据人物姓名在历史人物表单中查找人物编号;再由人物编号在关联表中查找所有的关联时间,作为第一个子节点;根据人物编号、关联时间可在关联表中查找对应的所有历史事件编号;然后根据事件编号在历史事件表单中查找事件简称,作为第二个子节点;根据人物编号、关联时间、事件编号可在关联表中查找对应的实体编号;根据通过实体编号在历史地理实体表单中查找实体标准名称,作为第三个子节点,完成历史人物的足迹关联搜索。

同样地,以历史时间为脉络,以历史地理实体为主体,可以重演在该地发生的所有著名历史事件,在该地活动过的所有历史人物。基于多元时空叠加的可视化表达方法可以基于不同的表达主体,通过时间回溯,呈现不同的叙事方式,给用户提供多样的选择,并且可进一步结合不同的承载体(如地图、沙盘、知识图谱等)赋予历史文化在表达层面的灵活性和生命力。

5 应用实例

本文针对所研究的成果转化体系设计开发了基于B/S架构的多元红色历史文化挖掘与展示平台,包括“语义识别”、“数据管理”、“关联搜索”、“时空展示”四大功能。目前平台已投入到红色文化资源的挖掘、管理及生产应用中,能够结合电子地图很好地展示其历史人物、事件和实体的多元属性、时空分布、历史关联和空间动态,增加文化互动的多样性和趣味性。

以红色地名“中国共产党第一次全国代表大会会址”为例,在系统中输入关于中共一大会址的历史文字描述,可快速提取其中的时间、地址、人物和事件信息,并结合地名普查成果数据库进行属性挂接和空间定位,实现历史信息的关联搜索和地图空间分布展示,如图4、5所示。

成果转化体系的利用和推广并不局限于平台的开发,在红色纸质地图的数据获取、处理和表达方面也得到了较好的应用,如图6所示,基于多元时空叠加的可视化表达方式,以“上海工人三次武装起义”事件为例,通过历史地图和时间轴,清晰直观地描述事件发生的时间、地点和结果。

6 结束语

本文研究的多元历史空间信息挖掘与可视化表达技术,从多元历史综合数据库构建,到红色地名文化挖掘研究,到文化专题空间落位,到多元数据入库,再到多样可视化数据表达,最终形成以空间地理信息为基础的多元文化历史成果转化体系,能够满足信息存储、历史追溯、纸质图集编制、线上服务等多方面、多角度的历史文化宣传和推广需求,可沿用于其他种类的空间型文化研究,该技术已成功应用于《上海红色文化地图》、《地图中的百年上海》等地图编制中,大大减少了人力成本,得到客户的广泛好评。

作者:李亚云

来源:《工程勘察》2024年第1期

选稿:贺雨婷

编辑:王利飞

校对:王玉凤

审订:宋柄燃

责编:耿 瞳

(由于版面内容有限,文章注释内容请参照原文)

微信扫码加入

中国地名研究交流群

QQ扫码加入

江西地名研究交流群

欢迎来稿!欢迎交流!

转载请注明来源:“江西地名研究”微信公众号