他在看着你！开源方法Gaze-LLE精准预测你的视线|gaze|lle|信号|开源方法|编码器

本文介绍的是注视目标估计问题，其目标是预测一个人在场景中的注视位置。预测一个人的注视目标需要同时对人的外观和场景内容进行推理。此前的研究开发了越来越复杂的手工设计流水线，用于注视目标估计，这些流水线将来自独立场景编码器、头部编码器以及辅助模型（如深度和姿态信号）的特征精细融合。

受通用特征提取器在各种视觉任务中成功应用的启发，佐治亚理工学院提出了Gaze-LLE，这是一种新颖的 Transformer 框架，通过利用来自冻结的 DINOv2 编码器的特征来简化注视目标估计。为场景提取单一特征表示，并应用针对个人的位置信号提示，通过一个轻量化模块解码注视目标，在多个注视基准测试中展示了最新的性能。（链接在文章底部）

01 技术原理

以往的注视目标估计方法需要精细融合来自独立头部编码器、场景编码器以及辅助模型（如深度和姿态等多模态线索）的特征。Gaze-LLE这是一种新颖且简化的方案，它利用冻结的图像编码器生成的单一特征表示，并通过注入针对个人的位置信号提示来解码注视目标。

它在冻结的 DINOv2 主干网络上学习了一个小型注视解码器。利用这一主干网络，首先从 RGB 图像中提取场景标记（scene tokens），并通过一个线性层将其投影到维度。接着，通过在特定人物的头部位置向场景标记添加一个学习得到的头部位置嵌入来执行头部提示（head prompting）。

随后，使用 3 层 Transformer 更新场景标记和一个可选的、可学习的辅助内/外框预测任务标记。最后，对场景标记进行上采样并解码为热图，并利用内/外框任务标记预测注视目标是否在画框内或外。

02 演示效果

当然Gaze-LLE 也存在一定局限性，由于使用的是冻结的编码器而非端到端训练，Gaze-LLE性能本质上受到编码器质量的限制。选择一个在大规模、多样化数据集上训练且具备密集目标的编码器至关重要。此外，尽管Gaze-LLE方法在效率上表现较为出色（在 RTX 4090 上超过 50 fps），但整体效率仍依赖于大型编码器的使用，这可能对嵌入式系统构成挑战。同样，依赖基于 Transformer 的辅助深度/姿态模型的最新方法也面临类似的限制。然而，随着更强大、更快速的通用特征提取器的出现，Gaze-LLE提供了一种利用这些提取器进行注视估计的有效方式。

https://github.com/fkryan/gazelle
https://arxiv.org/pdf/2412.09586

欢迎交流～，带你学习AI，了解AI

他在看着你！开源方法Gaze-LLE精准预测你的视线

热搜

热门跟贴

热搜

热门跟贴

相关推荐

男人给隔壁女友发信号，竟砸到丈母娘

为什么超速屡禁不止？新国标电动车解限速是公开秘密，已成产业链

刚刚，Thinking Machines出手！首款交互模型来了，翁荔出镜实测

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

别再硬扛！脂肪肝不是“富贵病”，出现5个信号，说明肝脏在求救

中国的房价以后还会涨吗？

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

上海诞生"新币王"5083万元成交 目前存世仅七枚

4.3亿听障人士的福音，哥大团队研发脑控助听器，最高增益12分贝

姚来英已任中国烟草总公司总经理

女子快速路上发现1米多大蛇爬行

九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

茶颜悦色，装不下去了

四十年前的旧专利，如今有望成为机器人的变形骨骼

温州一企业在芜湖拿地二十年陷困局：区划调整后，原招商承诺难兑现

“澎湃采访后，副县长实地走访发现问题严重，要求立即全面整改”｜5.56公里高标准农田沟渠的来回“折腾”

重新认识“唱片黄金时代”的监听利器——Lockwood Major监听音箱

海军新型末端防空反导系统现身 指挥屏满屏打上马赛克

上海诞生"新币王"5083万元成交目前存世仅七枚

海军新型末端防空反导系统现身指挥屏满屏打上马赛克