科学家提出数据挖掘新方法，为GPS轨迹加入语义信息，丰富行为建模方式

DeepTech深科技

2024-08-21 17:23 ·北京 ·《DeepTech深科技》官方网易号

当前，人类的出行数据存在不完整性、数据处理复杂性等问题，以至于无法全面理解和准确预测人类出行行为。

现有的人类出行数据，通常由全球定位系统（GPS，Global Positioning System）轨迹数据组成。

虽然这些数据记录了出行路径，但是缺乏具体的活动语义信息，因此无法准确判断一个人在特定地点的出行目的。

例如，GPS 数据只能显示某人在某个商圈活动，却无法确定其具体是在就餐、看电影还是购物。这种数据信息的单一性，限制了对人类出行行为的深入研究。

美国加州大学洛杉矶分校 UCLA Mobility Lab 的博士后研究员廖希舜、博士生刘一帆及其实验室其它研究人员 Chenchen Kuai、Haoxuan Ma、Yueshuai He、Jiaqi Ma 开展了一项研究，希望能改良现有的数据集，以深入了解人类的出行行为。他们认识到，全面的数据集是进行人类活动建模研究的重要基础。

研究团队的目标是创建一个包含出行轨迹信息及其具体出行语义信息在内的人类出行数据集。这个数据集不仅记录了人们的移动轨迹，还包含了丰富的上下文信息。

通过建立多维度的数据集，研究团队希望能够对某个地区的人们出行模式进行更精确的建模，了解人们在不同时间段去往的地点和从事的活动。

（来源：arXiv）

为了实现这一目标，课题组需要对现有的数据进行语义挖掘，以便把语义信息和地理位置信息相结合，从而揭示人类出行行为的细节和规律。

具体而言，他们需要利用地图信息给出行轨迹加入具体的活动信息（即对每一个 GPS 停留点进行标注）。标注这一操作分为两部分：

第一步，给地图的地点（POI，Points of Interest）关联活动信息，比如将商圈与购物、娱乐、就餐等关联。

第二步，基于地理位置信息、以及附近的 POI 信息，推断每个轨迹停留点的出行目的，即推断活动类型。

但是，研究人员发现地图地点（POI）的语义标注并非易事。

尽管有许多公开数据集比如 Yelp、OpenStreetMap 等能够提供地点信息，但是这些信息往往格式不规范、内容不完整，甚至存在歧义比如“足球体育”可能指足球场、也可能指运动用品商店。这让直接利用上述数据进行行为模式分析充满了挑战。

而实现跨数据集和跨地区的适用性更是难上加难。当使用现有机器学习方法的时候，课题组发现其在处理不完整数据和跨数据集数据时表现不佳，而且需要大量的人工操作，这就导致无法将其有效用于不同语种和地区的数据。

为了解决 POI 的语义标注问题，他们通过引入大模型来增强 POI 分类，借此提高数据的规范性和完整性，从而更准确地进行活动类型关联。

图 | 洛杉矶（左）和埃及（右）的 POI 分类（来源：arXiv）

考虑到活动之间的关联性、以及时间分布的概率特征，研究人员在 POI 分类的基础之上，使用贝叶斯算法来进一步地推断每个 GPS 轨迹停留点的活动类型。

比如，一个人白天去公司往往是“工作”，这个人晚上如果出现在住宅区但不是自己家更可能是“拜访”。

通过此，课题组不仅提高了轨迹挖掘的深度和准确性，也增强了大模型在预测人类出行行为方面的表现。

图 | GPS 轨迹语义标注（来源：arXiv）

总的来说，研究人员提出了一个整合了 POI 数据和 GPS 轨迹数据，为 GPS 轨迹加入语义信息的数据挖掘方法，其能以自动化的方式给人类出行轨迹中的每一个 GPS 点加入语义信息、标注出行目的。

相比传统的人工处理方式，它既能提升数据处理速度，也能降低成本。

这为 GPS 轨迹研究从单纯的时间序列建模、扩展到自然语言处理提供了便利，也为更深入地开展人类出行行为研究打下了数据基础。

这种能为轨迹加入语义信息的数据挖掘方法，可以自动化地标注现有数据集，从而能将分散的数据整合成格式规范的标准化通用数据集。

作为一款通用型工具，它不仅能革新人类行为建模的方式，还能显著提升数据集的精确度和应用广泛性。

从以前单纯地依赖出行 GPS 轨迹的模型，到如今通过结合出行特征把单纯的时间序列建模扩展到自然语言处理，毫无疑问这是一种跨学科的多模态创新。

当为人类活动行为建模之后，就可以建立一个能够预测某地区人士在一天、一周或一个月内的活动序列模型。

同时，语义信息的加入，能让大语言模型为轨迹研究提供助力，提升人类出行行为建模的水平。

从而推动交通系统模拟模型的自动化、特殊或重大事件的影响预测、以及异常活动行为检测等领域的发展。

日前，相关论文以《带有大模型信息的 POI 分类的语义轨迹数据挖掘》（Semantic Trajectory Data Mining with LLM-Informed POI Classification）为题发在 arXiv[1]。同时，稿件已经被 2024 IEEE Intelligent Transportation Systems Conference（ITSC）接收。

图 | 相关论文（来源：arXiv）

未来，课题组将对各种大模型进行微调和对比，选择最适合研究需求的大模型。

通过微调可以提高模型在特定任务上的表现，确保标注的精确度和一致性。

同时，他们计划整合同一地区现存的数据集，将其统一为一个规范化和标准化的通用数据集。

这将不仅能够提高数据的可用性和质量，还能为后续研究提供了坚实的数据基础。

利用整合之后的数据集，他们将继续深入研究人类出行行为，旨在实现从数据整合到人类行为模型的全流程自动化。

参考资料：

1.https://arxiv.org/pdf/2405.11715

运营/排版：何晨龙

01/

02/

03/

04/

05/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴