打开网易新闻 查看精彩图片

封面、内文图源:AI生成

撰文 | 泰伯网

泰伯网讯,近日,谷歌DeepMind正式发布D4RT(Dynamic4D Reconstruction and Tracking)—— 一款融合三维空间与时间维度的统一 AI模型。它的横空出世,直接宣告AI视觉迈入 “四维全感知” 时代 ,让机器第一次真正 “看懂” 了这个流动的、动态的世界。

打开网易新闻 查看精彩图片

一、告别 “拼图式” 视觉,D4RT重构AI看世界的方式

过去,让AI从一段2D视频里还原立体动态的现实世界,就像在玩一场复杂的拼图游戏。

工程师需要堆砌一堆模型:有的负责计算物体深度,有的负责追踪动作轨迹,有的负责校准相机视角。这种 “打补丁” 式的技术路线,不仅让AI系统臃肿迟缓,更让它对世界的认知支离破碎 —— 就像一个人用无数块碎片拼凑风景,却永远看不到全貌。

而D4RT的出现,直接颠覆了这套传统玩法。

它采用了一种极简的 “查询式” 架构 ,把所有复杂任务浓缩成一个核心问题:“视频里的某个像素,在某个特定时间点,从某个特定镜头看过去,到底位于三维空间的哪个坐标?”

打开网易新闻 查看精彩图片

简单来说,D4RT不再逐帧 “看” 视频,而是先将整段视频压缩成一个 “全局场景表征”,再通过时空查询的方式,精准定位每个像素在四维时空中的位置。这种 “指哪打哪” 的操作,让AI对世界的认知从 “碎片拼图” 升级成了 “完整建模”。

二、18-300倍速度狂飙!一分钟视频,5秒搞定

D4RT的厉害之处,不止于技术架构的革新,更在于碾压级的效率。

在性能测试中,它的运行速度比此前的技术标杆快了18到300倍!这个数字有多震撼?

举个例子:一段一分钟的普通视频,用过去的顶级算力解析需要死磕十分钟;而D4RT上场,仅需5秒钟就能完成四维重建。

这意味着,AI第一次拥有了在现实场景中实时构建四维地图的潜力。以前只能在实验室里缓慢运算的技术,现在终于能走进机器人、AR眼镜等终端设备,真正实现落地应用。

三、三大核心能力,让AI“穿透时空” 感知世界

除了速度上的飞跃,D4RT在视觉理解的深度上,更是完成了一次质的突破。它解锁了三项堪称 “黑科技” 的核心技能:

全时空像素追踪:遮挡?镜头外?都能精准预判哪怕一个物体移动到镜头外,或者被其他东西暂时遮挡,D4RT都能凭借强大的内部世界模型,预测出它在三维时空中的完整运动轨迹

就像一只天鹅游过水面,传统算法会因为水波和遮挡留下 “重影”,而D4RT能清晰还原天鹅的每一个动作,甚至预判它下一秒的游动方向。

瞬时云端重建:一键凝固时间,生成精准3D结构它可以像按下暂停键一样 “凝固时间”,直接生成整个场景的高精度3D结构,无需反复迭代优化。无论是飘落的树叶,还是奔跑的行人,都能被精准建模,细节拉满。

自适应镜头捕获:自动对齐视角,还原相机运动路径面对不同角度、不同帧率的视频素材,D4RT能自动对齐所有视角快照,精准还原相机本身的运动轨迹。这让它在复杂场景下的适应性远超传统模型。

打开网易新闻 查看精彩图片

四、从机器人避障到AR眼镜,D4RT打开未来无限可能

技术的突破,最终要落到应用的实处。D4RT的出现,为多个领域带来了颠覆性的改变:

1、机器人:从 “笨手笨脚” 到 “灵活预判”

现在的扫地机器人能避开沙发,却很难预判一只突然跑过的猫。而D4RT的实时四维感知,能让机器人精准预判动态物体的轨迹,真正实现灵活避障、智能交互。

2、AR眼镜:低延迟贴合现实,虚拟与真实无缝融合

想要在AR眼镜里实现 “虚拟怪兽藏在真实沙发后面” 的效果,需要极低延迟的场景理解。D4RT的高效运算能力,让这种科幻场景在工程上变得可行。

3、自动驾驶:像素级轨迹预测,提升行车安全

对行人、车辆等动态物体的精准追踪,是自动驾驶的核心难题。D4RT的全时空像素追踪能力,能为自动驾驶系统提供更可靠的决策依据。

4、视频编辑:随意旋转视角,轻松抠图改光影

拍了一段孩子踢球的视频?用D4RT技术,你可以像《黑客帝国》里一样随意旋转视角,甚至轻松抠掉路人、改变光源方向,解锁视频创作的新玩法。

写在最后:四维视觉,开启AI感知新时代

从 “看懂当下” 到 “穿透时空”,D4RT的出现,不仅是一次算法的更新,更是一场AI感知世界的革命。

它让机器不再是冰冷的 “图像识别器”,而是真正具备了理解动态世界的能力—— 既能回顾过去的运动轨迹,也能预见未来的发展方向。

随着这项技术的落地,机器人、AR、自动驾驶等领域将迎来全新的突破。而我们离真正具备物理常识的 “通用人工智能”,又近了一大步。

(文章来源:综合Goole DeepMind官网、“AI特工站”公众号

(本期编辑 | 墨川 校对 | 李欢)