以人为中心的开放性任务发现:建模、评测与可扩展树搜索

Human-Centric Open-Future Task Discovery: Formulation, Benchmark,and Scalable Tree-Based Search

https://arxiv.org/pdf/2511.18929v1

打开网易新闻 查看精彩图片

摘要
最近,机器人技术和具身人工智能(Embodied AI)的发展在很大程度上是由大型多模态模型(LMMs)推动的。然而,一个关键挑战仍未得到充分探索:我们如何推进LMMs去发现那些能够在开放未来场景中直接协助人类的任务,这些场景中人类的意图高度并发且动态变化。在这项工作中,我们正式提出了“以人为中心的开放未来任务发现(HOTD)”这一问题,特别关注识别那些能够减少人类在未来多种可能情境中的工作量的任务。为了促进这一研究,我们提出了HOTD-Bench,它包含超过2000段真实世界的视频、一个半自动化的标注流程,以及一个为开放集未来评估量身定制的基于仿真的协议。此外,我们提出了协作多智能体搜索树(CMAST)框架,该框架通过一个多智能体系统将复杂的推理过程分解,并通过一个可扩展的搜索树模块来结构化推理过程。在我们的实验中,CMAST在HOTD-Bench上实现了最佳性能,显著超过了现有的LMMs。它还能够很好地与现有的LMMs集成,持续提升性能。

引言
机器人技术和具身人工智能的发展为在日常生活中协助人类带来了巨大希望。最近,大型多模态模型(LMMs)的进展显著加速了这一过程,使机器人在各个领域具备了卓越的智能(Khandelwal等人,2022;Liang等人,2023;Lin等人,2023b;Driess等人,2023;Huang等人,2023;Yu等人,2023;Yuan等人,2024,2025c)。最近,研究开始利用大型多模态模型(LMMs)使机器人能够在未见过的环境中自主获取新技能和经验,这一概念被称为自主技能获取(Zhou等人,2024;Ahn等人,2024;Yang等人,2024b;Katara、Xian和Fragkiadaki,2024;Bharadhwaj等人,2024)。

自主智能体的一个核心能力是任务发现,其中LMMs为机器人提出要执行的操作任务(Wang等人,2023b;Ahn等人,2024;Yang等人,2024b;Bharadhwaj等人,2024)。尽管最近的方法侧重于根据当前观察生成任务,但它们通常假设目标是固定的或环境是封闭的。然而,现实世界中的人类情境要复杂得多:人们通常会同时参与多个子过程,动态地改变意图,并且很少明确所有未来的步骤。这引发了以人为中心的开放未来任务发现的关键问题——推断出在多样化且不确定的未来轨迹中仍然有用的任务。

与传统任务发现不同,传统任务发现旨在找到通往已知结果的下一步最佳操作,而开放未来发现必须预见一系列可能的未来,并识别出支持所有这些未来的行为。例如,如图1所示,协助家务的机器人应该主动擦拭桌子——无论人类接下来是做饭、打扫还是休息,这个任务仍然有用。解决这个问题对于使机器人能够在动态的、以人类为中心的环境中提供预见性的、可泛化的支持至关重要。这是实现真正与人类意图一致的协作人工智能的必要步骤,而不仅仅是响应式的。

鉴于这些重要但被忽视的方面,我们引入了以人为中心的开放未来任务发现这一新问题。为了清晰地研究它,我们首先正式定义了HOTD问题,其核心前提是:发现源于开放性未来可能性的人类中心任务。还提供了人类中心任务的正式定义以支持这一表述。

然而,在开放未来场景下评估任务发现性能面临着重大挑战。正如上文所述,人类行为的并发性导致可能的未来分支呈指数级增长,这使得标注所有有用任务的完整集合变得成本过高。此外,依赖人类标注者可能会引入主观偏见。为了解决这些问题,我们提出了HOTD-Bench以及一种基于仿真的评估方法。HOTD-Bench来源于现有的数据集,涵盖了多样化的真实世界活动。仿真评估采用了一种区分性策略,避免了穷举枚举,同时确保与人类偏好保持一致。通过利用大型语言模型(LLMs)中的世界知识(Jin等人,2024;Gruver等人,2023;Cao等人,2024),我们的评估方法能够适应开放集假设性未来分支,包括在观察到的情境中未实现的分支。这缓解了纯观察性评估的局限性,能够全面评估实际和理论上最优的任务分解。在HOTD-Bench上的实验结果表明,现有的LMMs在HOTD上的性能仅达到有限水平。

为了弥合这一差距,我们引入了协作多智能体搜索树框架(CMAST)。我们的核心思想是构建程序结构的搜索树,并据此识别适当的任务。我们的框架有两个主要创新点。首先,CMAST引入了一个搜索树模块,以明确地结构化推理过程。通过迭代构建搜索树,我们的模型捕捉了行动程序的固有不确定性,彻底探索了各种未来场景。此外,搜索树模块允许进行可扩展的测试时思考,这是与OpenAI-O3(OpenAI,2025)和DeepSeekR1(Guo等人,2025)共享的一个关键特征。其次,CMAST采用了一个协作多智能体系统,其中专业智能体管理推理的不同阶段。这种协作有效地分解了复杂的推理过程,使每个智能体能够专注于一个特定方面,降低了难度。

实验结果表明,我们的框架在有效任务比率方面显著优于现有的LMMs,同时在有效任务数量方面保持了有竞争力的性能,显示出其在HOTD中的强大优势。消融研究证实了搜索树模块的有效性,并表明我们的框架可以无缝地与各种LMMs集成。可视化进一步说明了该框架通过探索多样化的未来程序来建议适当任务的能力。此外,实验验证了仿真器在合理推断未来场景方面的有效性。

我们的主要贡献如下:(1)我们引入并定义了以人为中心的开放未来任务发现问题,为有效的人机协作做出了贡献。(2)我们建立了HOTD-Bench,包含来自两个来源的2000多个真实世界视频。我们提出了一个仿真器来推断给定任务的未来结果,使任何未来轨迹的评估及其有用性的评估成为可能。(3)我们提出了CMAST框架来管理复杂的推理过程。实验表明,CMAST框架可以无缝集成各种现有的LMMs,并持续实现卓越的性能。

相关工作

自主技能获取
这项技术鼓励机器人在较少人类指导的情况下学习新技能(Bharadhwaj等人,2024;Ahn等人,2024)。一些研究关注基于仿真的学习(Wang等人,2023b,a;Zhao、Weber和Wermter,2024;Katara、Xian和Fragkiadaki,2024;Yang等人,2024b),利用大型多模态模型(LMMs)自动生成仿真组件,例如场景资产和监督。另一些研究则关注真实世界的学习(Ahn等人,2024;Zhou等人,2024)。它们通常利用LMMs推荐物理交互任务,让机器人尝试这些任务并积累经验。在本工作中,我们旨在进一步增强LMMs提出任务的能力,专注于生成更有价值的任务来协助人类。通过这种增强,我们希望机器人能够获得直接符合人类需求的技能。

增强LMMs以进行复杂推理
最近的研究集中在增强LMMs以进行复杂推理,常见的两种方法是多智能体系统和思维链。多智能体系统部署多个智能体,将复杂问题分解为更小、更易于管理的子部分(Wu等人,2023;Hong等人,2023;Yuan等人,2025a;Yu等人,2025),这一方法已在各种应用中得到验证(Yang等人,2024d,c;Aher、Arriaga和Kalai,2023)。思维链推理通过生成逐步导向最终答案的中间步骤来增强LMMs(Guo等人,2025;Yuan等人,2025b)。最显著的模型包括DeepSeekR1(Guo等人,2025)、OpenAI-o1/o3(OpenAI,2024, 2025),这些模型具备可扩展的测试时思考能力,随着思考时间的延长,其推理效果不断增强。受以往工作的启发,我们的方法结合了这两种方法的优势。

相关视频数据集
视频理解一直是研究的重点。存在许多视频理解数据集(Soomro,2012;Caba Heilbron等人,2015;Jia等人,2020;Damen等人,2022;Zeng等人,2024;Zhou等人,2023),其中一些与人类相关(Zellers等人,2019;Lei等人,2018;Grauman等人,2022)。然而,现有的数据集没有一个专注于任务发现,即为人类提供支持性任务。在本工作中,我们基于现有的视频数据集策划了我们的基准测试,并开发了一种评估方法来评估任何发现任务的贡献。

公式化

问题公式化

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

对于开放性未来可能性的概念,我们没有明确定义它。相反,我们依赖于模拟评估,这适应了开放性未来场景,并根据人类偏好估计结果。

以人为中心任务的定义

为了明确理解HOTD,我们开发了一个系统性定义,明确了以人为中心的任务是什么。具体来说,以人为中心的任务被定义为有助于实现人类目标的可执行动作。

首先,每个以人为中心的任务对应于机器人可以执行的特定动作。我们遵循Moeslund等人(Moeslund, Hilton, 和 Krüger 2006)引入的三级分类法,“动作原语”、“动作”和“活动”。以人为中心的任务被定义为第二级,确保它们既不过于狭窄而缺乏意义,也不过于宽泛而使机器人困惑。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这样的区分性定义特别合适且必要,因为人类认知的复杂性使得规定性定义不可行。

基准

数据收集

为了在实际场景下评估模型的性能,我们从两个现有数据集中构建我们的数据集:丰田智能家居未剪辑(TSU)(Das等人,2019年;Dai等人,2022年)和Charades(CHA)(Sigurdsson等人,2016年)。它们提供了来自两个分布的各种真实世界活动。我们应用滑动窗口来分割视频并过滤掉低质量样本,最终得到2450个精选片段,总计近40小时。TSU和CHA子集分别贡献了2K和0.4K个视频。

通过模拟评估

在开放未来设置下,我们的评估旨在量化预测集中包含多少以人为中心的任务。然而,这种评估并非易事。一种直接的方法是让人类标注者标记所有有帮助的任务。虽然直观,但由于标注者的主观性和彻底标记指数级多的未来分支的高昂成本,这种方法是不切实际的(见图1)。相反,验证给定任务是否有帮助要容易得多,因为它只需要估计在公式(2)和公式(3)中引入的成本。这促使我们使用模拟作为评估工具。模拟器可以灵活地模拟在任何假设任务插入下未来将如何展开,从而能够评估任意候选轨迹。

打开网易新闻 查看精彩图片

图2上半部分展示了所提出的基于模拟的评估方法。对于没有机器人干预的序列,它直接模拟未来过程。对于有机器人干预的序列,它模拟人类适应并重建完整序列。然后使用生成的轨迹来估计产生的成本。这种方法的一个核心优势在于其生成性质,这不仅允许评估观察到的轨迹,还允许评估数据集之外的任何假设未来,从而捕捉可能比明确执行的更优的场景。

打开网易新闻 查看精彩图片

在我们的实现中,我们采用大型语言模型(LLM)作为模拟器,这已被证明能够可靠地推断未来演变(Jin等人,2024年;Gruver等人,2023年;Cao等人,2024年),同时也符合人类偏好并最小化主观偏见(Rafailov等人,2023年;Bai等人,2022年)。潜在目标 z 是根据整个视频预先标注的。成本以时间消耗来定义。为了减轻绝对时间估计引起的敏感性,我们的模拟器通过比较有无机器人干预的两个动作序列来评估相对时间成本。

打开网易新闻 查看精彩图片

通过标签评估

打开网易新闻 查看精彩图片

方法

搜索树模块

HOTD推理不仅需要理解视觉内容,还需要分析开放未来过程。为此,我们构建了一个搜索树,明确表示开放未来的行动空间,从而能够明确探索未来场景。此外,它支持灵活的扩展和修剪,促进可扩展的测试时思考,从而实现全面的答案,这是与OpenAI-O3(OpenAI 2025)和DeepSeek-R1(Guo等人,2025年)共享的一个关键特征。

搜索树由一组节点和边组成:。每个节点对应一个单独的动作。节点之间的边表示时间顺序。树中的前N个节点表示由输入视频确定的历史动作序列,公式化为:

打开网易新闻 查看精彩图片

其中 g 是一个节点扩展函数,我们将在公式(6)中介绍。随着树的进展,多个分支捕获各种可能的动作序列。树中的叶节点表示整个活动的完成,我们称之为“完成活动”。

搜索树支持几种搜索策略。为了平衡性能和效率,我们采用概率阈值为0.5的修剪穷尽搜索。替代策略在第6.3节中讨论。

协作多智能体系统

受到之前工作的启发(Wu等人,2023年;Hong等人,2023年;Yu等人,2025年),我们开发了一个多智能体系统来构建HOTD问题中的推理过程。工作流程如图3所示。我们的关键思想是通过将每个智能体与搜索树的特定阶段对齐来分解复杂问题,例如初始化、扩展、修剪和后处理。这种设计不仅保留了大型语言模型(LLMs)的泛化能力,还实现了与各种LLMs的无缝集成。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

第三,从初始搜索树开始,三个智能体被用来迭代扩展搜索树。在每次迭代中,下一个动作预测智能体预测给定整个动作路径到现在的下一个即时动作。而概率估计智能体预测每个子节点的概率,为排序和修剪提供参考。我们手动将“完成活动”节点添加到每个非叶节点。当上述两个智能体扩展搜索树时,冗余移除智能体被用来修剪冗余节点。这三个智能体迭代工作,直到所有未扩展的节点都是叶节点或达到最大树高。设 g 表示上述三个智能体的组合,扩展过程可以写为:

打开网易新闻 查看精彩图片

第四,通过遍历所有路径,搜索树被格式化为一组动作序列。采用依赖识别智能体来识别并排除具有前提条件的动作,仅保留那些可执行的动作。

最后,我们拆除顺序结构,得到一组独立的动作。任务转换智能体被用来将每个动作从机器人的角度转换为任务描述,公式化为:

打开网易新闻 查看精彩图片

实现细节

我们的框架完全不需要训练,不需要对整个系统或任何子模块进行微调。这种设计允许各种大型语言模型(LLMs)无缝集成。具体来说,场景描述智能体、历史动作识别智能体和下一个动作预测智能体是LLM智能体,使用LLaVA-Next-Video(Zhang等人,2024年)实现,其他三个智能体是LLM智能体,使用Qwen-LM(Yang等人,2024a)实现。

实验

实验设置

基线。我们在HOTDBench上进行定量研究,以评估以下开源大型多模态模型(LMMs)的HOTD能力:Qwen2-VL(Wang等人,2024年)、Qwen2.5-VL(Team 2025年)、InternVL2(Team 2024年)、InternVL2.5(Chen等人,2024年)、Video-LLaVA(Lin等人,2023a)、LLaVA-Next-Video(Zhang等人,2024年)。对于这些基线,我们给它们提供视频,并直接提示它们推荐一些辅助任务。

评估指标。我们建立了两个评估指标,有效任务计数和有效任务比例,对应于公式(1)中的两个目标。有效任务计数,表示为‘vc’,衡量发现的平均有用任务数量,表明模型识别多样化有用任务的能力。有效任务比例,表示为‘vr’,衡量每次预测中有用任务的平均比例,表明模型输出的可靠性和精确度。它们的公式如下所示,其中N表示样本数量:

打开网易新闻 查看精彩图片

在本文的大多数实验中,我们报告了两种评估方法(通过模拟和标签)的结果。我们还测量了不同观察长度的视频,并使用‘@’来区分。例如,‘vc@40’表示在40秒观察下给出的指标。

进一步分析

比较现有LMMs。基于表1的结果,我们进一步分析现有LMMs的性能。值得注意的是,有效任务计数和有效任务比例之间通常存在权衡。例如,Internvl2-8B(Team 2024)在基线中实现了最高的有效任务比例,但有效任务计数较低,表明预测过于保守。LLaVA-Next-Video7B(Zhang等人,2024年)在基线中实现了最高的有效任务计数,但有效任务比例较低,表明预测过于激进,包含许多无效任务。此外,在我们的实验中,较大的模型并没有比较小的模型提供明显的优势。这表明,在这种设置下,扩大规模并不一定增强任务发现能力。总体而言,当前的LMMs在解决HOTD问题上仍面临显著挑战。

打开网易新闻 查看精彩图片

模拟器的可靠性。为了调查模拟器是否与人类偏好一致,我们进行了人类评估。我们随机选择了25个被模拟器标记为有帮助和25个无帮助的任务,并将它们以混合顺序呈现给5名标注者。标注者独立判断每个任务是否有帮助。如图4所示,被模拟器判断为有帮助的任务大多被人类认为是有帮助的,无帮助的任务也是如此。结果表明,模拟器可靠地反映了人类的偏好,提供了准确的评估。

模拟器的案例研究。图7展示了我们的模拟器生成的未来推断,证明了它能够模拟人类对响应的动作,即使是在数据集中没有明确观察到的场景。例如,在最后一行中,它成功预测了由于机器人的动作,人需要取回杯子,这是一个否则不会发生的事件。这些例子突出了我们基于LLM的模拟器的有效性,因为它提供了对所有假设任务的可靠和全面的评估。

打开网易新闻 查看精彩图片

搜索树模块的消融研究。我们进行了消融研究,以检查搜索树模块的整体贡献。结果如图5所示。“CMASTmain”是我们的主要版本。“CMAST w/o tree”移除了整个搜索树模块,用一个直接预测未来动作的LMM代理替换它。从结果可以看出,替换整个搜索树模块使有效任务比例降低了37%。这表明单个LMM代理可能会产生受限的预测路径。相反,搜索树模块通过提供明确和结构化的程序空间来解决这个问题,允许对不同的动作程序进行彻底检查。

搜索策略的消融研究。图6中的结果比较了不同的搜索策略,其中‘CMAST-beam=k’表示束宽度为k的束搜索策略。虽然贪婪搜索策略(beam=1)最高效,但每段视频仅发现1.4个有益任务。随着我们采用越来越耗时的搜索策略,模型表现出越来越好的性能,发现的任务数量显著增加,而准确率基本保持不变。这表明,通过扩大测试时的思考,我们的模型能够探索更广泛的未来情况并覆盖更多有价值的任务。

组件智能体的选择。我们进一步进行实验,以研究选择不同组件智能体的详细影响。具体来说,我们用不同的LMM替换我们框架中的LMM智能体,生成以下变体:CMAST-LLaVA,这是我们的主要版本,CMAST-InternVL2,使用InternVL28B(Team 2024),CMAST-Qwen2,使用Qwen2-VL7B(Wang等人,2024年)。此外,我们还报告了每种变体对应的普通LMM。结果如图5所示。与单独使用的相同LMM相比,我们框架中的LMM将有效任务比例提高了至少39%。结果证实,使用不同的组件智能体始终能增强我们模型的性能,突出了其与各种LMM无缝集成的能力。

与人类表现的比较。这部分研究CMAST是否能达到人类水平的性能。为此,我们随机选择了10个示例,并要求人类参与者发现任务。结果如图8所示,CMAST框架实现了与人类水平相当的性能。我们展示这个实验并不是要声称我们的方法已经超越了人类能力,而是为了展示其潜力和观察到的有趣现象。至于两种评估方法表现出的差异,我们将在附录中讨论。

打开网易新闻 查看精彩图片

案例研究。图9可视化了CMAST的推理过程,展示了其探索各种程序和建议适当任务的能力。更多示例可以在附录中找到。

打开网易新闻 查看精彩图片

结论

我们引入并形式化了以人为中心的开放未来任务发现问题,使大型多模态模型(LMMs)能够识别直接协助人类的任务。为了研究这一问题,我们提出了HOTD-Bench,这是一个包含超过2K个真实世界视频的基准,涵盖了多种活动,并结合了一种基于模拟的协议,评估超出观察轨迹的开放集未来。为了实现稳定的评估,我们还提供了通过半自动化流程标注的开放词汇任务标签。我们进一步提出了协作多智能体搜索树框架,该框架利用多智能体系统和可扩展的搜索树模块来构建复杂的推理。实验表明,有效任务计数和有效任务比例都有显著提升,并且在与现有LMMs集成时持续改进。

原文链接:https://arxiv.org/pdf/2511.18929v1