这不是一场普通的学术年会,而是一次计算机视觉领域的天花板对决。16092篇投稿,4071篇录用,25.3%的录取率已经刷新历史纪录,但真正让行业震动的,是聚光灯下那五篇最佳论文——至少三篇直接指向同一个未来:具身智能。那个只会“看图说话”的CV时代,正在被机器人、动态重建和跨实体代理联手推下王座。 5篇获奖论文中,D4RT让动态场景重建速度碾压前代300倍,NitroGen用4万小时游戏视频训练出一个通用视觉-动作大脑,SAM 3D则实现单视角毫秒级三维分割。这三剑客的共同点是:让机器从“看懂”升级为“会动”。当Google DeepMind、NVIDIA和Meta扎堆把视觉模型塞进机器人和物理世界,传统视觉研究的分界线已经模糊到快要熔断。一场关于感知如何通向行动的范式地震,正在丹佛会场里无声爆发。

打开网易新闻 查看精彩图片