阿里团队推出MobilityBench：让AI导航助手在真实世界中接受考试|mobilitybench|大模型|真实世界|调用|阿里巴巴集团

路线规划一直是我们日常生活中不可或缺的一部分。当你急着赶早班机，想知道几点出门最合适；或者打算周末出游，希望避开拥堵的高速公路时，你都会求助于导航应用。然而，随着大语言模型技术的快速发展，一种新型的AI导航助手正在兴起——它们不仅能理解你的自然语言指令，还能主动调用各种地图工具来帮你规划路线。

这项由中科院计算机网络信息中心与阿里巴巴AMAP团队合作完成的研究发表于2026年，研究团队构建了一个名为MobilityBench的全面基准测试平台。这个基准就像是给AI导航助手举办的一场大型考试，包含了从简单的"附近哪里有加油站"到复杂的"规划一条避开高速公路的多站点路线"等各种真实场景。研究团队从高德地图收集了10万个真实用户查询，覆盖全球350多个城市，构建了这个迄今为止最具挑战性的AI导航助手评估平台。

与传统的学术测试不同，MobilityBench完全基于真实世界的出行需求。研究团队发现，现有的AI导航助手在基本信息检索和简单路线规划方面表现不错，但在处理个性化约束条件的复杂路线规划时仍有很大提升空间。这项研究不仅为AI导航技术的发展提供了标准化评估工具，更为未来个性化出行服务的普及奠定了重要基础。

**一、从理想到现实：AI导航助手的真实世界挑战**

当我们谈论AI导航助手时，很容易联想到科幻电影中那些无所不能的智能系统。然而现实中，构建一个真正实用的AI导航助手面临着诸多挑战。就像一个刚毕业的医学生需要在真实医院环境中接受考验一样，AI导航助手也需要在复杂多变的现实出行场景中证明自己的能力。

传统的导航应用主要处理标准化的路径查询，比如从A点到B点的最短路径。但真实世界中的出行需求远比这复杂得多。一位商务人士可能会说："我要从酒店到机场，但是要先经过市中心的客户办公室，而且绝对不能迟到下午3点的航班。"一位带着孩子的家长可能会要求："找一条去游乐园的路线，但要避开所有收费路段，最好路上能经过一家便利店。"

这些复杂的现实需求包含了多层次的约束条件：空间约束（必经路点、禁行区域）、时间约束（出发时间、到达时间）、成本约束（避免收费、选择最经济路线）以及个人偏好（避开高速公路、优化换乘次数）。更重要的是，这些需求往往以自然语言的形式表达，充满了模糊性和歧义。

现有的评估基准主要关注高层次的行程规划，比如安排多日旅游行程，但缺乏对细粒度路线规划能力的系统评估。这就像用文学创作比赛的标准来评估技术写作能力一样不够准确。真实的出行场景需要AI系统能够准确理解用户意图，合理分解复杂任务，正确调用地图工具，并生成满足所有约束条件的可执行路线。

更关键的是，现实世界中的地图服务具有高度的动态性和不确定性。交通状况时刻变化，道路施工频繁出现，公交线路随时调整。这种环境的非确定性给AI导航助手的评估带来了巨大挑战——同样的查询在不同时间可能得到完全不同的答案，这使得传统的评估方法难以保证结果的可重现性。

**二、构建真实世界的AI考试：MobilityBench的设计理念**

面对这些挑战，研究团队决定构建一个全新的评估基准。他们的核心理念很简单：既然要评估AI在真实世界的表现，那就应该用真实世界的问题来测试它。

MobilityBench就像是为AI导航助手设计的标准化考试。但与普通考试不同的是，这场考试的题目全部来自真实用户的实际需求。研究团队从高德地图收集了大量匿名化的用户语音查询，这些查询涵盖了人们在日常出行中会遇到的各种情况。

这些真实查询被精心组织成一个comprehensive的任务分类体系。就像将数学题分为代数、几何、概率等类别一样，研究团队将出行查询分为四大类别：基础信息检索、路线依赖信息检索、基本路线规划和偏好约束路线规划。

基础信息检索包括最简单的查询类型，比如"附近哪里有加油站"或"明天武汉天气怎么样"。这就像考试中的基础知识题，测试AI是否掌握了最基本的信息检索能力。

路线依赖信息检索则需要AI先计算路线，再回答相关问题。比如"从合肥到黄山有多远"或"现在从家里开车到首都机场什么时候能到"。这类问题测试的是AI的多步推理能力。

基本路线规划涵盖了标准的导航需求，包括点到点规划和多站点规划。这是AI导航助手的核心功能，就像语文考试中的阅读理解部分。

最具挑战性的是偏好约束路线规划，这要求AI不仅要规划出可行的路线，还要满足用户的各种特殊要求。比如"规划一条到上海迪士尼的驾车路线，但要避开收费路段"或"到上海迪士尼，要经过人民广场，避开内环高架"。这就像考试中的应用题，需要AI具备复杂的约束满足和优化能力。

为了解决现实世界的不确定性问题，研究团队设计了一个独特的"时间胶囊"机制。他们在构建测试数据时，将所有相关的地图服务响应都记录下来，形成一个确定性的沙盒环境。这就像将某一时刻的整个城市交通状况"冻结"起来，确保每次测试都在完全相同的条件下进行。这样，不同的AI系统就能在完全相同的环境中接受测试，确保评估结果的公平性和可重现性。

**三、全方位的能力评估：不只看结果，更看过程**

传统的AI评估往往只关注最终结果的正确性，就像只看学生的考试分数而不关心解题过程。但在现实应用中，一个AI系统的中间推理过程同样重要。研究团队设计了一个多维度的评估体系，不仅要看AI能否给出正确答案，还要看它是如何得出这个答案的。

这个评估体系就像一个全面的学生能力评估系统，从多个角度来衡量AI的表现。首先是指令理解能力，这测试AI是否真正理解了用户的需求。研究团队通过意图识别和信息提取两个指标来评估这一能力。意图识别就像问AI"这个用户到底想要什么"，而信息提取则像问"用户提出了哪些具体要求"。

接下来是规划能力，这评估AI是否能将复杂任务分解为合理的执行步骤。就像一个优秀的项目经理需要将大项目拆分为可管理的小任务一样，AI也需要能够将"规划一条复杂的多站点路线"分解为"查找地点→获取坐标→计算路线→验证约束"等具体步骤。

工具使用能力是AI导航助手的核心技能之一。现实中的AI系统需要调用各种地图API来获取实时信息，就像一个熟练的工匠需要恰当地使用各种工具。研究团队从工具选择、参数填写、调用规范等多个角度来评估这一能力。

最后是决策制定能力，这评估AI是否能基于获取的信息做出正确的最终决策。这不仅包括能否给出答案，还包括这个答案是否真正满足用户的所有需求。

为了提供更全面的评估，研究团队还加入了效率指标，测量AI在处理任务时的资源消耗。这就像评估一个员工不仅要看工作质量，还要看工作效率一样。

**四、构建现实世界的数字孪生：技术实现的精妙之处**

将这样一个复杂的评估理念转化为可操作的技术系统，需要解决许多工程挑战。研究团队的解决方案可以比作构建了一个现实世界的"数字孪生"。

在数据收集阶段，研究团队面临的第一个挑战是如何从海量的用户查询中筛选出高质量的测试案例。他们采用了多阶段的过滤和整理流程，就像淘金者从河沙中筛选金子一样。首先移除了格式错误、信息不完整或过于模糊的查询，然后通过去重处理确保测试用例的多样性。

为了构建任务分类体系，研究团队采用了开放式的标注方法。他们使用AI模型对查询进行初步分类，但允许模型提出新的类别建议。这个过程就像建立一个不断进化的图书分类系统，既有基础的分类框架，又能适应新出现的内容类型。

最具挑战性的是构建标准答案。对于客观的信息查询，标准答案相对容易确定。但对于复杂的路线规划任务，一个查询可能有多个合理的答案。研究团队制定了详细的标准操作流程，定义了完成每类任务所需的最少工具调用序列。这就像为每种类型的数学题制定标准解题步骤，确保评估的一致性。

沙盒环境的构建是整个系统最精巧的部分。研究团队需要在保持系统真实性的同时确保完全的可重现性。他们的解决方案是在构建标准答案时记录所有的API调用和响应，然后在评估时用这些预录制的响应替代实时API调用。这个过程需要处理许多细节问题，比如坐标精度的标准化、时间格式的统一化，以及如何处理缓存未命中的情况。

为了处理现实世界中常见的模糊匹配情况，研究团队还实现了智能的回退策略。当AI查询的参数与缓存中的数据不完全匹配时，系统会尝试进行合理的近似匹配，就像一个经验丰富的图书管理员能够理解读者的模糊描述并找到相应的书籍。

**五、全球范围的真实测试：覆盖面和多样性**

MobilityBench的一个显著特点是其惊人的覆盖范围和多样性。整个数据集包含了来自22个国家超过350个城市的查询，这种全球化的覆盖确保了基准测试的通用性。

这种地理分布的多样性带来了独特的挑战和价值。不同城市的交通系统、道路网络、公共交通模式都存在显著差异。北京的环路系统、纽约的网格道路、伦敦的历史街区，每种城市结构都对路线规划提出了不同的要求。这种多样性确保了在MobilityBench上表现良好的AI系统具有真正的全球适应能力。

数据集的规模分布也很有意思。基础信息检索占了36.6%，这反映了用户查询中大量的是简单信息需求。基本路线规划占42.5%，是最大的类别，这符合导航应用的主要使用场景。路线依赖信息检索占9.6%，而最具挑战性的偏好约束路线规划占11.3%。这种分布基本反映了现实世界中不同类型查询的相对频率。

在语言和文化适应性方面，数据集包含了不同地区用户的表达习惯。中国用户可能习惯说"避开高架"，而美国用户更常说"避开高速公路"。这些细微的差别对于构建真正实用的AI系统非常重要。

时间维度的考虑也很周到。数据集包含了不同时段的查询，从早高峰的通勤路线到深夜的回家路线，从工作日的商务出行到周末的休闲旅游。这种时间多样性确保了AI系统在各种场景下都能得到充分测试。

**六、AI导航助手的大体检：实验结果深度解析**

研究团队对12个不同的大语言模型进行了全面测试，就像对一批AI学员进行统一考试。测试涵盖了从小参数的开源模型到大型的商业模型，从传统的文本生成模型到专门优化的推理模型。

在整体表现上，闭源商业模型普遍优于开源模型，但差距正在迅速缩小。Claude-Opus-4.5在Plan-and-Execute框架下表现最佳，最终通过率达到65.77%。而在ReAct框架下，Gemini-3-Pro-Preview取得了69.09%的最高通过率。这些结果表明，即使是目前最先进的AI系统，在复杂的现实世界路线规划任务中仍有很大的提升空间。

更有趣的发现来自对不同任务类别的分析。所有模型在基础信息检索任务上都表现相当不错，这就像学生们都能很好地回答简单的选择题。但在偏好约束路线规划任务上，所有模型的表现都出现了明显下降。这表明理解和满足复杂约束条件仍然是当前AI系统的一个主要瓶颈。

两种不同的执行框架展现了有趣的权衡关系。ReAct框架采用"思考-行动-观察"的循环模式，能够根据实时反馈调整策略，因此在最终通过率上通常更高。但这种灵活性是有代价的——ReAct平均消耗的输入token比Plan-and-Execute高出35.38%，这意味着更高的计算成本和更长的响应时间。

在模型规模的影响上，研究发现了清晰的scaling效应。从4B参数的小模型扩展到32B参数的大模型，成功率稳步提升。更有趣的是，采用Mixture-of-Experts(MoE)架构的模型在保持较低推理成本的同时实现了与大型密集模型相当的性能。

研究团队还专门测试了"思维链"(Thinking)模式的影响。启用思维链后，所有模型的性能都有提升，其中Qwen-30B-A3B的提升最为显著，达到5.98个百分点。但思维链模式大幅增加了生成的token数量，这在生产环境中可能成为一个实际约束。

**七、深入剖析：AI在哪些方面还需要补强**

通过详细分析测试结果，研究团队发现了当前AI导航助手的几个关键弱点。这些发现就像医生的诊断报告，不仅指出了问题，还为改进指明了方向。

最突出的问题是在约束理解和满足方面。当用户提出"避开收费路段但要在3点前到达机场"这样的复杂需求时，AI经常在权衡不同约束的优先级时出现困难。有些AI会严格避开所有收费路段，结果导致无法在指定时间到达；有些则会选择最快路线，但忽略了避免收费的要求。

在多步规划方面，AI系统经常在任务分解上出现问题。一个看起来简单的"经由购物中心到机场"的请求，实际上需要AI理解这涉及两个阶段的路线规划。许多AI要么将其视为简单的两点路线，忽略了购物中心这个中间站点，要么过度复杂化，产生了不必要的绕行路线。

工具使用的一致性也是一个普遍问题。AI系统有时会为同样的任务选择不同的工具组合，或者在参数填写时出现细微的格式错误。这就像一个不熟练的工人，有时用锤子砸螺丝，有时用扳手敲钉子。

特别值得注意的是在处理歧义和不完整信息方面的局限性。现实世界中，用户的查询经常包含歧义或遗漏重要信息。比如"去机场"可能指的是多个机场中的任何一个，"尽快到达"可能意味着要考虑实时交通状况。优秀的人工导航助手会主动澄清这些问题，但AI系统往往直接做出假设，有时这些假设并不合理。

在处理动态信息方面，AI系统也显示出局限性。虽然测试环境是静态的，但研究团队模拟了一些动态场景，比如临时道路封闭或公交线路调整。AI系统在适应这些变化时表现出明显的困难，往往无法及时调整原有规划。

**八、技术演进的方向：从现状到未来**

基于这些发现，研究团队对AI导航助手的发展方向提出了深入的思考。他们认为，未来的突破可能来自几个关键领域的协同发展。

首先是约束推理能力的提升。现在的AI系统主要依靠模式匹配来理解用户需求，但真正智能的导航助手需要具备深度的约束推理能力。这意味着不仅要理解"避开高速公路"这个约束，还要理解为什么用户提出这个约束，以及在不同情况下如何灵活应用这个约束。

其次是情境感知能力的增强。优秀的人工导航助手会考虑用户的历史偏好、当前天气、交通状况等多种因素。AI系统需要发展类似的情境感知能力，能够主动获取和整合相关的环境信息。

多模态交互也是一个重要的发展方向。现实中的导航往往需要结合地图可视化、语音交互、甚至手势控制。未来的AI导航助手需要在这些不同的交互模式之间无缝切换。

个性化适应是另一个关键领域。每个用户都有独特的出行习惯和偏好，理想的AI导航助手应该能够学习和适应这些个人特征。这不仅包括路线偏好，还包括交流方式、信息密度、决策风格等方面的个性化。

实时学习和适应能力也需要显著改进。现在的AI系统主要基于预训练的知识，但现实世界的交通状况在不断变化。未来的系统需要能够从用户反馈和环境变化中持续学习，不断优化自己的决策能力。

**九、现实应用的前景与挑战**

MobilityBench不仅是一个学术研究工具，更为现实世界中AI导航技术的应用提供了重要洞察。研究结果表明，虽然当前的AI技术在某些方面已经相当成熟，但在部署到现实环境中时仍需要谨慎考虑。

从商业应用的角度看，基础的信息检索和简单路线规划功能已经具备了实用化的基础。这意味着AI导航助手可以开始在这些相对简单的场景中发挥作用，比如语音导航查询、基础的出行信息服务等。

但对于更复杂的个性化路线规划服务，目前的技术水平还需要进一步提升。这种局限性提醒我们，在设计AI导航产品时，需要合理设定用户期望，并提供适当的人工干预机制。

隐私和安全问题也需要特别关注。AI导航助手需要访问大量的个人位置和出行数据，如何在提供个性化服务的同时保护用户隐私，是一个需要仔细平衡的问题。

计算成本是另一个实际考虑因素。研究显示，更强的推理能力往往意味着更高的计算成本。在设计商业产品时，需要在性能和成本之间找到合适的平衡点。

跨地区和跨文化的适应性也是一个挑战。MobilityBench的全球覆盖揭示了不同地区在交通系统、文化习惯、语言表达方面的显著差异。一个真正成功的AI导航产品需要能够适应这些差异。

说到底，MobilityBench为我们提供了一个清晰的技术发展路线图。它不仅揭示了当前AI导航技术的能力边界，更重要的是为未来的研究和开发指明了方向。虽然AI导航助手还不能完全替代人工服务，但它们在特定场景下已经展现出了巨大的潜力。

随着技术的不断进步，我们可以期待在不久的将来，AI导航助手将能够提供更加智能、个性化和可靠的出行服务。而MobilityBench这样的评估平台，将继续在这个发展过程中发挥重要的指导和监督作用，确保技术进步真正服务于人们的实际需求。

对于普通用户而言，这项研究意味着更智能的导航体验正在路上。未来的导航应用可能不再需要你输入复杂的条件设置，而是能够通过自然对话理解你的需求，主动为你规划最符合个人偏好的出行方案。虽然这个未来还需要一些时间来实现，但MobilityBench的研究成果已经为我们描绘出了一个令人期待的前景。

想要深入了解这项研究技术细节的读者，可以查阅发表在2026年会议上的完整论文，论文编号为arXiv:2602.22638v1。研究数据、评估工具和详细文档已在GitHub上的AMAP-ML/MobilityBench项目中公开发布，为后续研究和应用开发提供了宝贵的资源。

Q&A

Q1：MobilityBench是什么？

A：MobilityBench是中科院计算机网络信息中心与阿里巴巴AMAP团队合作开发的AI导航助手评估平台。它就像给AI导航助手举办的标准化考试，包含了10万个来自高德地图的真实用户查询，覆盖全球350多个城市，用于全面测试AI在真实出行场景中的表现能力。

Q2：为什么需要专门的AI导航助手测试平台？

A：现实世界的出行需求非常复杂，包含时间约束、路径偏好、成本考虑等多重因素，而且用户查询往往以模糊的自然语言表达。现有的评估方法主要关注高层次行程规划，无法准确测试AI在细粒度路线规划方面的真实能力，因此需要专门的测试平台来评估AI是否能处理这些复杂的现实场景。

Q3：测试结果显示AI导航助手表现如何？

A：目前最先进的AI系统在基础信息检索和简单路线规划方面表现不错，最高通过率约为69%。但在处理复杂的个性化约束路线规划时仍有很大提升空间，特别是在理解和满足多重约束条件、处理模糊需求等方面还存在明显局限性。

阿里团队推出MobilityBench：让AI导航助手在真实世界中接受考试

热搜

热门跟贴

热搜

热门跟贴

相关推荐

阿里杀入硬件！硬刚Meta与OpenAI

L3级自动驾驶时代真的来了？无图智驾已全面上车

字节跳动AI大战复盘：全场景探索、多模型筑基、生态化布局

百度AI进入“兑现期”——AI业务收入占比达43%

周鸿祎：分不清AI和人工内容，说明AGI已经在稳步实现

AI眼镜市场持续扩容！互联网大厂，加速硬件布局

QuestMobile发布春节AI应用数据：千问DAU增幅达940% 行业呈现双雄格局

马斯克一语定调：AI算法，正式开启人类文明新纪元

别折腾ClawBot了！阿里QoderWork：只要会打字，电脑就能自己干活

华为乾崑、小鹏汽车春节智驾数据亮眼，智能驾驶从“尝鲜”走向“普及”

从试水到深耕，2026车企AI总动员

千问AI眼镜来了！阿里AI开始“品牌收敛”？

万兴科技想让AI漫剧创作不再靠运气

千问将发布AI眼镜、耳机、指环，巨头抢占AI新入口丨智能涌现独家

对话鹿明机器人：在具身智能的“数据荒”里，做一个送水人｜AI Founder 请回答

再携手!清华陈建宇×斯坦福Chelsea团队VLAW,世界模型×VLA协同进化

中国AI的“成本奇迹”能持续多久——一个三角结构的脆弱与韧性

北京市已有216款大模型完成备案 计划今年推动人工智能产业核心规模突破5500亿元

大模型的下半场，属于拥有云+AI全栈引擎的玩家

VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

北京市已有216款大模型完成备案计划今年推动人工智能产业核心规模突破5500亿元