随着AI技术不断进步,真正有用的智能体将能够更好地预测用户需求。为了让移动设备上的体验真正有帮助,底层模型需要理解用户在与其交互时正在做什么(或试图做什么)。一旦理解了当前和之前的任务,模型就有更多上下文来预测潜在的下一步操作。例如,如果用户之前搜索过欧洲的音乐节,现在正在寻找飞往伦敦的航班,智能体可以主动提供在这些特定日期在伦敦举办的音乐节信息。
大型多模态大语言模型已经能够很好地从用户界面(UI)轨迹中理解用户意图。但使用大语言模型执行这项任务通常需要将信息发送到服务器,这可能很慢、成本高昂,并且存在暴露敏感信息的潜在风险。
我们在EMNLP 2025上发表的最新论文"小模型,大成果:通过分解实现卓越意图提取",解决了如何使用小型多模态大语言模型来理解用户在网页和移动设备上的交互序列的问题,并且全部在设备上完成。通过将用户意图理解分为两个阶段——首先分别总结每个屏幕,然后从生成的摘要序列中提取意图,我们使小模型更容易处理这项任务。我们还制定了评估模型性能的正式指标,并显示我们的方法产生了与更大模型相当的结果,展示了其在设备上应用的潜力。
分解式工作流程
我们引入了一种用于从用户交互中理解用户意图的分解工作流程。在推理时,模型执行两个主要步骤。第一步,每个在单一屏幕和UI元素上的单独交互都被独立总结。接下来,这些摘要被用作一系列事件来预测整个UI轨迹的一般意图。
在第一阶段,每个单独的交互都由一个小型多模态大语言模型进行总结。给定三个屏幕的滑动窗口(上一个、当前、下一个),会询问以下问题:屏幕上下文是什么?用户采取了什么行动?用户可能试图实现什么?
在这个阶段,使用经过微调的小模型从屏幕摘要中提取一个句子。在第二阶段的分解工作流程中,使用经过微调的模型,将第一阶段生成的摘要作为输入,输出简洁的意图陈述。在这个阶段,我们从摘要中删除所有推测,并在训练期间清理标签,使其不鼓励幻觉。
评估方法
我们使用Bi-Fact方法来评估预测意图与参考意图的质量。通过这种方法,我们使用单独的大语言模型调用将参考意图和预测意图分解为不能进一步分解的意图细节,我们称之为"原子事实"。例如,"单程航班"将是一个原子事实,而"从伦敦到基加利的航班"将是两个。然后我们计算预测意图所包含的参考事实数量和参考意图所包含的预测事实数量。这使我们能够了解方法的精确度(有多少预测事实是正确的)和召回率(我们正确预测了多少真实事实),并计算F1分数。
实验结果
当使用小模型时,分别总结每个屏幕然后从生成的摘要序列中提取意图的分解方法是有帮助的。我们将其与标准方法(包括思维链提示(CoT)和端到端微调(E2E))进行比较,发现它超越了两者。当我们在移动设备和网页轨迹以及Gemini和Qwen2基础模型上测试时,这个结果都成立。我们甚至发现,将分解方法应用于Gemini 1.5 Flash 8B模型可以实现与使用Gemini 1.5 Pro相当的结果,但成本和速度只是其一小部分。
结论
我们已经表明,轨迹总结的分解方法对于使用小模型进行意图理解是有帮助的。最终,随着模型性能的提高和移动设备获得更多处理能力,我们希望设备上的意图理解能够成为未来移动设备上许多辅助功能的构建基块。
Q&A
Q1:什么是分解式意图提取方法?
A:分解式意图提取是一种将用户意图理解分为两个阶段的方法。第一阶段使用小型多模态大语言模型分别总结每个屏幕上的用户交互,第二阶段使用经过微调的模型从这些摘要序列中提取整体意图。这种方法让小模型更容易处理复杂的用户行为理解任务。
Q2:为什么要使用小模型而不是大型语言模型?
A:使用大语言模型通常需要将信息发送到服务器,这会导致延迟高、成本昂贵,并且存在暴露用户敏感信息的风险。而小模型可以直接在设备上运行,保护用户隐私,降低成本,提高响应速度,同时通过分解方法仍能达到与大模型相当的性能。
Q3:Bi-Fact评估方法是如何工作的?
A:Bi-Fact方法将预测意图和参考意图都分解为不可再分的"原子事实",然后计算预测意图包含的参考事实数量和参考意图包含的预测事实数量。通过这种方式可以得出精确度(预测事实的正确率)和召回率(真实事实的预测覆盖率),进而计算F1分数来综合评估模型性能。
热门跟贴