打开网易新闻 查看精彩图片

这项由清华大学人工智能产业研究院的彭雨航、潘艺舟、何心宁、杨济昊宇、尹鑫宇、王涵、郑晓霁、高超、龚健涛团队共同完成的研究发表于2025年11月。感兴趣的读者可以通过arXiv:2511.13524v1查询完整论文。

想象一下,当你在一个陌生城市迷路时,会怎么办?大多数人的第一反应就是找个路人问路。但目前的机器人却不会这么做——它们拿到一个导航指令后,就会按照这个指令一条路走到黑,即使迷路了也不知道主动寻求帮助。清华大学的研究团队发现了这个问题,于是决定教会机器人像人一样"厚脸皮"地主动问路。

这听起来简单,实际上却是一个巨大的技术挑战。机器人需要学会判断自己是否迷路了,需要知道如何与人交流,还需要理解别人给出的新指令,并将这些信息整合起来重新规划路线。更重要的是,这一切都需要在充满动态变化的真实环境中完成——有行人走动,有车辆穿行,有各种突发状况。

为了解决这个问题,研究团队开发了一个名为FreeAskWorld的虚拟世界模拟平台。这个平台就像是为机器人专门设计的"驾校",但比传统驾校复杂得多。在这个虚拟世界里,不仅有逼真的城市环境,还有各种"虚拟市民"在其中生活。这些虚拟市民每个都有自己的性格特点、文化背景和生活习惯,就像真实世界中的人一样。

研究的核心创新在于,他们不仅仅是让机器人学会导航,更重要的是让机器人学会社交。机器人需要学会识别谁可能愿意帮助它,如何礼貌地提出请求,如何理解不同文化背景下人们的指路习惯,以及如何将获得的信息转化为实际的行动。这就像教会一个原本只会按部就班工作的员工,突然学会了灵活应变和人际交往。

团队还创建了一个名为"方向询问任务"的全新测试标准。传统的机器人导航测试就像考试只有一道题目,给出标准答案就算过关。而新的测试更像是真实生活的模拟——机器人可能会在中途迷路,需要主动寻求帮助,根据新获得的信息调整策略,甚至需要多次询问才能到达目的地。

为了支撑这样复杂的测试,研究团队构建了一个规模庞大的数据集。这个数据集包含了重建的城市环境、六种不同类型的任务、16个核心物体类别、超过6万3千个标注样本帧,以及总计17小时以上的交互数据。这些数据就像是给机器人准备的"社交教科书",让它们能够学习各种复杂的人际交互场景。

在虚拟世界的构建上,研究团队下了巨大功夫。他们的虚拟人物不是简单的"木头人",而是有着复杂背景故事的"数字市民"。比如,一个虚拟人物可能是30岁的医生露西,性格善良,早上9点要去医院上班,晚上8点去购物。她的指路习惯会受到她的职业背景、文化背景和个人性格的影响。医生出身的她可能会给出更精确、更有条理的指路信息,而性格善良的她更愿意花时间帮助迷路的机器人。

更有意思的是,这个系统还考虑了地域文化差异。就像现实生活中,欧洲人更喜欢用标志性建筑来指路("走到那个红色教堂然后左转"),而美国人更习惯用街道名称("沿着第五大街走三个街区"),系统中的虚拟人物也会根据他们的文化背景表现出不同的指路风格。

技术实现方面,研究团队采用了分层的人工智能架构。最底层是基础的运动控制,就像人的小脑负责维持平衡和基本动作。中间层是任务管理,类似人的执行功能,负责将复杂任务分解成小步骤。最高层则是社会认知和意图理解,这是最复杂的部分,需要理解社会环境、判断他人意图、进行高层决策。

在人物外观生成上,团队采用了两种不同的方法。第一种是使用多模态大语言模型来创建多样化的虚拟人物外观,通过自然语言描述(如性别、职业、种族)来控制人物的生成。第二种是利用现成的Synbody数据集,这样生成的人物包含服装、鞋履、头发等细致特征,看起来更加真实。这就像是给每个虚拟人物定制了专属的"数字身份证"。

环境建设方面,系统不仅仅是静态的建筑和道路,还包含了动态的天气系统、昼夜循环、交通流量等真实世界的复杂因素。机器人需要在雨天、雾天、夜晚等各种条件下都能正常工作。交通系统会模拟真实的车辆行为和交通规则,让机器人学会在复杂的城市环境中安全导航。

研究团队还特别关注了机器人的社会导航能力。他们使用社会力模型来模拟人群中的导航行为。这个模型认为,人在人群中移动时会受到各种"隐形力量"的影响——被目标吸引,被障碍物排斥,与其他人保持适当距离等等。机器人需要学会这套"人群中的生存法则",才能像人一样自然地在人群中穿行。

在数据收集过程中,系统会记录机器人的所有行为和感知信息。这包括全景图像(就像人的360度视野)、深度信息(距离感知)、物体识别结果、对话记录、行为轨迹等等。这些数据就像是机器人的"成长日记",记录了它在虚拟世界中的每一次学习经历。

实验结果显示,经过在FreeAskWorld数据集上训练的机器人模型,性能获得了显著提升。在开环测试中,微调后的模型比原始模型的预测误差降低了约50%。更重要的是,在闭环测试中,人类基线测试显示了交互能力的巨大价值——当人类测试者可以主动询问方向时,导航成功率从40.2%大幅提升到82.6%。

这个结果揭示了一个重要道理:交互本身就是一种信息获取方式。就像人类在陌生环境中会通过询问、观察、交流来获取额外信息一样,机器人也需要具备这种能力。纯粹依靠最初给定的指令是远远不够的,真实世界太复杂,变化太快,需要持续的信息更新和策略调整。

当然,研究也暴露了当前技术的局限性。虽然机器人模型在训练后表现有所改善,但与人类相比仍有巨大差距。机器人在复杂社交场景中的表现还不够理想,经常会与行人或车辆发生碰撞,在长期规划、抽象推理、记忆保持等高级认知功能方面还有待提升。

研究团队认为,这些挑战反映了从单纯的感知导航向社会化智能导航转变的本质困难。机器人不仅要理解物理世界,还要理解社会世界的复杂规则。这需要在算法设计、模型架构、训练方法等多个层面进行根本性的创新。

这项研究的意义远不止于让机器人学会问路。它代表了人工智能研究的一个重要方向转变——从孤立的任务执行向社会化的智能交互发展。在未来,我们期待的不是只会按指令行事的机器人,而是能够像人类一样灵活应变、善于学习、富有社交能力的智能伙伴。

FreeAskWorld平台的开源发布也为整个研究社区提供了宝贵的资源。其他研究者可以在这个平台上测试各种新的算法和方法,推动整个领域的发展。这就像是为人工智能研究建造了一个公共的"实验城市",让全世界的研究者都能在其中进行各种创新实验。

展望未来,研究团队计划将这个平台扩展到更复杂的社交任务,比如谈判、协调、长期信任建立等。他们还希望通过集成更先进的生成模型来提升虚拟环境的视觉真实度,并开发端到端的软件解决方案,让更多人能够轻松使用这个平台。

这项研究最终告诉我们,真正的人工智能不应该是冷冰冰的计算机器,而应该是具备社交能力、能够在复杂社会环境中自如生存的智能体。就像人类的智慧不仅体现在个体的思考能力上,更体现在与他人协作、交流、共同解决问题的社会能力上一样,未来的人工智能也必须具备这样的社会智能。

Q&A

Q1:FreeAskWorld是什么?

A:FreeAskWorld是清华大学团队开发的虚拟世界模拟平台,专门用来训练机器人的社交导航能力。这个平台就像机器人的"社交驾校",里面有各种虚拟市民,机器人可以在其中学习如何与人交流、如何主动问路、如何在复杂环境中导航。

Q2:方向询问任务和传统导航任务有什么不同?

A:传统导航任务就像按照固定路线走,机器人只能依靠最初给定的指令。而方向询问任务允许机器人在迷路时主动寻求帮助,就像人类问路一样。这更贴近真实生活场景,机器人需要学会判断何时需要帮助、如何与人交流、如何整合新信息。

Q3:这个研究对普通人有什么意义?

A:这项研究让我们离拥有真正智能的机器人助手更进一步。未来的服务机器人、导航系统、智能助理将更像人类一样灵活应变,能够在复杂环境中主动学习和寻求帮助,而不是死板地按程序执行任务。