无标签视频能预测未来画面？MIT新研究揭秘

薛定谔的BUG

2026-05-11 11:35 ·北京

看一段视频，你能猜到下一秒发生什么吗？人类凭直觉就能做到，但AI需要大量标注数据才能学会。MIT团队最近找到一条新路：让模型自己从原始视频里学。

核心思路叫"视觉表征预测"。不依赖人工标签，系统直接分析未标注视频，学习画面变化的内在规律。比如看到球滚向斜坡，它能预判球会加速下滑——不是记住答案，而是理解物理。

技术关键在于分离"不变内容"与"动态变化"。模型同时处理多帧画面，用自监督任务预测未来状态。实验显示，这种方法在动作识别和视频理解任务上，效果接近甚至超过有监督训练。

意义在于降低数据门槛。视频标注成本高昂，而网上未标注视频取之不尽。如果AI能自学看懂世界，视觉应用的落地速度会大幅加快。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴