打开网易新闻 查看精彩图片

当前的视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然 “看不懂” 物体如何运动。

它们或许能描述视频中发生了什么,但如果你问它:“红色的车是在蓝色车转弯之前还是之后通过路口的?” 或者 “那个皮球的抛物线轨迹最高点在哪里?”,很多模型就开始 “胡言乱语” 了。

究其根本,在于高质量运动数据的极度匮乏。现有的数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型去学习真实世界中细粒度的物理运动。

针对这一痛点,来自MIT、NVIDIA、UC Berkeley等机构的研究者提出了FoundationMotion:一套完全不依赖人工标注的自动化数据管线。

令人惊讶的是,仅靠这套管线生成的数据微调后,15B 参数的视频模型竟在运动理解任务上,超越了 Gemini-2.5 Flash 以及 72B 参数的开源大模型:NVILA-Video-15B: 90.6% on AV-Car benchmark, Gemini-2.5-Flash: 84.1%,Qwen-2.5-VL-72B: 83.3%

打开网易新闻 查看精彩图片

  • 项目主页: https://yulugan.com/projects/FoundationMotion.html
  • 论文: https://arxiv.org/abs/2512.10927
  • 代码: https://github.com/Wolfv0/FoundationMotion

视频模型的 “物理盲” 危机

2024 年至今,被认为是视频生成模型的爆发期。从 OpenAI 的 Sora 到各类国产模型,AI 已经能够生成极其逼真的动态画面。然而,在华丽的像素背后,一个长期被忽视的问题逐渐暴露出来:

这些模型并不真正理解物体的运动。

例如,在测试中研究人员发现:

  • 它们可以生成高速行驶的赛车,却难以判断刹车究竟是发生在碰撞之前还是之后;
  • 它们能描绘复杂的街景,却常常搞错行人的移动方向与相对位置关系。

比如我们上传一段一辆汽车在夜间行驶,变道,超过了前方车辆的视频给 Gemini 3 Pro Preview,问 “What is the primary driving behavior demonstrated by the ego vehicle in the video?”

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

Gemini 3 Pro Preview 的回答是这辆车正在它的车道上行驶,完全没有理解这个视频最主要的运动:变道与超车。

正如心理学家 Barbara Tversky 在《Mind in Motion》中所指出的:空间与运动是人类理解世界的基础。而这一能力,恰恰是当前视频模型最薄弱的部分。

打开网易新闻 查看精彩图片

问题的根源在于数据。现有视频数据要么只包含静态描述(如 “一只狗在草地上”),要么高度依赖昂贵、难以扩展的人工标注,使得大规模、细粒度的 “运动理解” 数据几乎无法获得。

FoundationMotion

一座全自动的 “运动数据工厂”

为了解决这一瓶颈,研究团队提出了 FoundationMotion——一套端到端、无需人工参与的自动化数据生成系统。

它的工作流程可以被形象地拆解为四步:

打开网易新闻 查看精彩图片

1 & 2. 预处理 & 先把 “运动” 精确地抓出来

首先,使用成熟的目标检测与跟踪模型,对视频进行逐帧分析,将人、车辆、手部、机械臂等关键物体转化为连续的时空轨迹(Trajectories)。

  • 输入: 任何视频。
  • 输出: 每个物体在视频中的精确运动坐标。

2. 把轨迹 “讲给” 语言模型听

仅有数字坐标对语言模型来说过于抽象,FoundationMotion 采用了多模态融合策略:

  • 将轨迹转化为结构化的文本描述;
  • 同时将视频帧与轨迹信息作为 Prompt 输入。

这相当于为模型提供了一份 “运动说明书”,让它不仅看到画面,还能结合坐标理解物体究竟是如何移动的。

3. 让模型生成标注与问题

研究团队利用 GPT-4o-mini,在轨迹与视频的基础上,自动生成两类高质量数据:

  • 精细化运动描述:包含速度变化、方向、终止位置等细节;
  • 多维度运动理解问答:覆盖动作识别、时序关系、动作 - 物体关联、空间位置以及重复计数等关键能力。

最终,团队基于 InternVid 构建了约50 万条高质量运动理解数据,形成了 FoundationMotion 数据集。

数据样例:

小模型,击败大模型

在实验环节,研究人员使用 FoundationMotion 生成的数据微调了多个开源视频模型,包括 NVILA-Video-15B 与 Qwen2.5-7B。

结果显示,高质量数据带来的提升是巨大的:

  • 越级挑战: 微调后的 7B/15B 模型在多个运动理解基准上,超越了 Gemini-2.5 Flash 与 Qwen2.5-VL-72B。
  • 纯数据驱动: 这一提升不依赖额外的模型结构设计或复杂的推理策略,完全归功于数据的质量。
  • 强泛化性: 在自动驾驶、机器人操作、日常活动等不同领域均具备良好表现。
  • 无损通用能力: 在增强物理感知的同时,并未损害模型原本的通用视频理解能力。

通向 “物理 AI” 的关键一步

FoundationMotion 的意义远不止于刷榜。

在自动驾驶与机器人领域,“理解物体如何运动” 直接关系到系统的安全与决策能力。

FoundationMotion 提供了一条低成本、可扩展的路径,让 AI 能够通过观看海量视频,逐步建立对物理世界的直觉。这套管线未来可广泛用于:

  • 视觉语言模型(VLM)
  • 视觉 - 语言 - 动作模型(VLA)
  • 世界模型(World Models)

这被认为是构建真正的具身智能(Embodied AI)的基础设施。