本文介绍的是注视目标估计问题,其目标是预测一个人在场景中的注视位置。预测一个人的注视目标需要同时对人的外观和场景内容进行推理。 此前的研究开发了越来越复杂的手工设计流水线,用于注视目标估计,这些流水线将来自独立场景编码器、头部编码器以及辅助模型(如深度和姿态信号)的特征精细融合。
受通用特征提取器在各种视觉任务中成功应用的启发,佐治亚理工学院提出了Gaze-LLE,这是一种新颖的 Transformer 框架,通过利用来自冻结的 DINOv2 编码器的特征来简化注视目标估计。为场景提取单一特征表示,并应用针对个人的位置信号提示,通过一个轻量化模块解码注视目标,在多个注视基准测试中展示了最新的性能。(链接在文章底部)
01 技术原理
以往的注视目标估计方法需要精细融合来自独立头部编码器、场景编码器以及辅助模型(如深度和姿态等多模态线索)的特征。Gaze-LLE这是一种新颖且简化的方案,它利用冻结的图像编码器生成的单一特征表示,并通过注入针对个人的位置信号提示来解码注视目标。
它在冻结的 DINOv2 主干网络上学习了一个小型注视解码器。利用这一主干网络,首先从 RGB 图像中提取场景标记(scene tokens),并通过一个线性层将其投影到 维度。接着,通过在特定人物的头部位置向场景标记添加一个学习得到的头部位置嵌入 来执行头部提示(head prompting)。
随后,使用 3 层 Transformer 更新场景标记和一个可选的、可学习的辅助内/外框预测任务标记 。最后,对场景标记进行上采样并解码为热图,并利用内/外框任务标记预测注视目标是否在画框内或外。
02 演示效果
当然Gaze-LLE 也存在一定局限性,由于使用的是冻结的编码器而非端到端训练,Gaze-LLE性能本质上受到编码器质量的限制。选择一个在大规模、多样化数据集上训练且具备密集目标的编码器至关重要。此外,尽管Gaze-LLE方法在效率上表现较为出色(在 RTX 4090 上超过 50 fps),但整体效率仍依赖于大型编码器的使用,这可能对嵌入式系统构成挑战。 同样,依赖基于 Transformer 的辅助深度/姿态模型的最新方法也面临类似的限制。然而,随着更强大、更快速的通用特征提取器的出现,Gaze-LLE提供了一种利用这些提取器进行注视估计的有效方式。
https://github.com/fkryan/gazelle
https://arxiv.org/pdf/2412.09586欢迎交流~,带你学习AI,了解AI
热门跟贴