来源:机器之心
在人工智能的发展历程中,有一位科学家几乎贯穿了整个深度学习时代 —— 他就是 Yann LeCun。
许多人第一次接触神经网络,往往就是通过他在上世纪提出的手写数字识别系统LeNet。这一早期的卷积神经网络模型不仅成功应用于银行支票识别,也为后来席卷全球的深度学习浪潮奠定了重要基础。
与如今大量研究者将目光投向生成式 AI 不同,LeCun 近年来一直在强调另一条更长期的研究路线:构建能够理解世界并进行规划的 「世界模型」(World Model)。
在他看来,当前模型虽然在文本与图像生成上表现惊艳,但仍然缺乏一种关键能力 ——对现实世界进行建模,并预测未来可能发生的变化。
围绕这一愿景,来自 Meta 与 New York University 等机构的研究者(其中也包括 LeCun 团队的成员)最近发布了一篇新论文,尝试解决世界模型中的一个基础问题:如果我们希望 AI 在潜在空间中进行规划,那么这种表示空间应该具备怎样的结构?
论文标题:Temporal Straightening for Latent Planning
论文链接:https://arxiv.org/pdf/2603.12231
视觉特征的「曲率陷阱」
这项研究的核心灵感源自神经科学中的一个著名假设 ——感知直道化(Perceptual Straightening)。人类视觉系统在处理自然视频流时,倾向于将复杂的视觉输入转化为在大脑皮层中轨迹更平直的表征,从而预测物体的运动。
研究指出,虽然预训练编码器能够学习到丰富的语义表示,但其在潜在空间中形成的时间轨迹通常具有较高的曲率,这使得基于该表示进行规划变得更加困难。
这种高曲率带来了两个致命问题:
距离失效:在复杂的潜空间中,简单的欧几里得距离无法准确反映到达目标状态的真实难度(测地距离)。
规划不稳定:基于梯度的规划算法在弯曲的景观中极易陷入局部最优,导致智能体在任务中「原地打转」或逻辑断层。
预训练视觉编码器所编码的潜在轨迹通常高度弯曲(DINO),这增加了预测和规划的难度。本文引入了一个几何约束,在此空间中可行的轨迹更加平直(Ours)。
时间直道化
为了解决这一问题,研究团队引入了一个几何约束 ——曲率正则化器(Curvature Regularizer)。
传统的潜空间规划通常学习一个编码器 和一个预测器 。但在复杂的动态环境中,相邻状态在潜空间中的轨迹往往是剧烈弯曲的。
为了实现「拉直」,研究团队提出了基于曲率(Curvature 的约束。在潜空间中,定义连续三个时间步的表征为 。
1. 曲率的数学定义
直道化的核心是要求潜空间中的运动轨迹尽可能接近匀速直线运动。公式上,这体现为相邻两个时间步的「位移向量」应该尽可能一致:
如果轨迹是完全笔直且匀速的,那么这两个向量应该相等。
2. 曲率损失函数
论文引入了以下损失函数来惩罚轨迹的弯曲程度:
或者使用单位向量的夹角余弦值来衡量方向的一致性:
这个正则项会强制编码器 将原始视觉输入映射到一个平滑的空间中,使得状态转移在该空间内表现为线性演化。
训练与规划示意图。在训练过程中,一方面最小化预测嵌入 与目标分支中带有停止梯度的目标 之间的预测损失,另一方面最小化嵌入的局部曲率。在规划过程中,我们使用训练好的预测器进行时域 的展开推演,并在嵌入空间中选择能够最小化预测最终状态与目标之间成本的最优动作。
通过这种方式,模型共同学习了一个更「平滑」的编码器和一个更「直觉」的预测器。这种「拉直」操作产生了两个神奇的效应:
欧几里得距离 = 测地距离:在拉直后的空间里,两个点之间的直线距离就能精准代表从 A 态转移到 B 态的成本。
改善目标条件调节:规划目标对路径的引导变得更加线性且稳定。
直道化前后的潜空间轨迹对比。 上方的 PushT 示例展示了一个旋转动作,下方的 UMaze 示例展示了智能体从左上角移动到右上角的过程,其中星号表示目标。直道化产生了更少弯曲且更平滑的轨迹,并使欧几里得距离能够更真实地反映通往目标的测地线进展(即实际步数)。
实验结果:攻克「传送门」迷宫
为了验证这一理论,研究团队设计了一个极具挑战性的实验环境:Teleport-PointMaze(带传送门的点迷宫)。
在这个迷宫中,当智能体触碰右侧墙壁时会瞬间「传送」到左侧,这种瞬时的位置跳跃对传统的预训练编码器(如 DINOv2)是巨大的灾难。
不同编码器的潜在曲率与开环 GD 成功率对比。余弦相似度越高表示曲率越低。此处比较了具有空间特征的模型,并报告了平均逐块余弦相似度。在编码器类型相同的情况下,曲率的降低通常会导致成功率的提升。
研究通过计算潜空间中任意点与目标点(Target)之间的 均方误差(MSE),生成了距离热力图。
PointMaze 的距离热力图(蓝色表示小值,红色表示大值)。黄色五角星代表目标位置,计算其嵌入与迷宫中所有其他状态嵌入之间的欧氏距离。图 b 和图 c 使用了经过平直化正则化训练的 ResNet,其输出特征 。经过平直化处理后,潜在距离能够准确反映到达目标所需的最小步数。
DINOv2 (a):其热力图呈现出支离破碎的斑块,完全无法反映迷宫的物理拓扑结构,规划算法在此空间内几乎是「盲目搜索」。
无直道化的投影器 (c):虽然经过了任务微调,但热力图依然显示出严重的扭曲,无法正确识别传送门的连接性。
时间直道化(b):神奇的事情发生了 —— 热力图显示出的梯度非常平滑,且完美契合了地标真值(d)。这意味着在直道化后的空间里,简单的欧氏距离就能精准指导智能体穿过传送门。
世界模型研究的新线索
随着世界模型研究不断发展,越来越多学者开始关注:什么样的表示才真正适合规划?
这篇论文给出了一个简单但有启发性的答案:在一个好的 latent space 中,时间轨迹应该尽可能是直线。
这种设计不仅可以提高规划效率,还可能影响未来许多研究方向,例如机器人控制、视频世界模型、自动驾驶……
或许正如 Yann LeCun 所强调的那样:真正的智能,离不开一个能够理解并预测世界的模型。
而让「时间变直」,可能正是通往这一目标的重要一步。
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”
未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
热门跟贴