本期为TechBeat人工智能社区第736期线上Talk。
北京时间12月18日(周四) 20:00,英伟达研究科学家李一鸣的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是:开放世界下的类人视觉搜索与空间推理。介时他将探讨如何将先进的视觉搜索与空间推理能力,赋予具身的人形智能体,并将介绍一种耦合工具使用与智能体主动感知(如头部旋转) 的新型框架。
Talk·信息
主题:开放世界下的类人视觉搜索与空间推理
时间:北京时间12月18日(周四) 20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
Talk·介绍
近年来,视觉搜索领域取得了显著进展。然而,现有工作大多局限于对单张二维图像的被动问答,仅依赖缩放、裁剪等基础操作,尚未充分融入具身智能体在与物理世界动态交互中所能获得的丰富感知与行动能力。本次报告将探讨如何将先进的视觉搜索与空间推理能力,赋予具身的人形智能体。我们将介绍一种耦合工具使用与智能体主动感知(如头部旋转) 的新型框架,并展示如何将该系统规模化部署到多样复杂的真实人类环境中,例如交通枢纽、大型商场与公共机构,从而实现类人的具身推理与决策。
Talk大纲
1. 动机:人类在执行视觉搜索任务时,展现出极高的效率,这得益于眼睛、大脑与头部运动系统的高度协调与主动感知能力。这启发我们思考:如何为具身智能体赋予类似的“眼-脑-身”协同机制,使其在复杂物理环境中进行高效的空间推理与交互?
2. 文献综述:视觉搜索与空间推理
3. 核心问题一:何种环境催生高阶视觉空间推理需求?
4. 核心问题二:如何绕过硬件和仿真,实现真实开放世界空间推理研究?
5. 问题定义:具身视觉搜索的形式化表述
6. 基准构建:数据、任务与评估体系
7. 训练方案:从监督微调到强化学习
8. 实验结果:基准评估与分析
9. 总结与范式转变:总结本工作的核心贡献,并深入探讨其所推动的三个关键范式转变。
Talk·预习资料
论文链接: https://arxiv.org/abs/2511.20351 代码链接: https://github.com/humanoid-vstar/hstar 数据集链接: https://huggingface.co/humanoid-vstar 项目主页: https://humanoid-vstar.github.io/
Talk·提问交流
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
李一鸣
英伟达 · 研究科学家
李一鸣目前是英伟达 (NVIDIA) 研究科学家,与斯坦福大学的Marco Pavone教授合作。他即将于2026年入职清华大学人工智能学院担任助理教授。他在纽约大学(NYU)获得博士学位,导师为NYU具身智能与机器人中心联合主任冯晨教授。他的研究成果已发表在CVPR、ICCV、ECCV、NeurIPS、RSS、CoRL和RA-L等顶级会议和期刊上,获得近4000次引用,并荣获多项Spotlight、Highlight和Oral奖项。他曾获得英伟达奖学金、纽约大学院长奖学金以及纽约大学杰出博士论文奖(提名)。
个人主页: https://www.techbeat.net/grzytrkj?id=11205
-The End-
如果你也想成为讲者
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
预约本期Talk
热门跟贴