看一段视频,你能猜到下一秒发生什么吗?人类凭直觉就能做到,但AI需要大量标注数据才能学会。MIT团队最近找到一条新路:让模型自己从原始视频里学。
核心思路叫"视觉表征预测"。不依赖人工标签,系统直接分析未标注视频,学习画面变化的内在规律。比如看到球滚向斜坡,它能预判球会加速下滑——不是记住答案,而是理解物理。
打开网易新闻 查看精彩图片
技术关键在于分离"不变内容"与"动态变化"。模型同时处理多帧画面,用自监督任务预测未来状态。实验显示,这种方法在动作识别和视频理解任务上,效果接近甚至超过有监督训练。
打开网易新闻 查看精彩图片
意义在于降低数据门槛。视频标注成本高昂,而网上未标注视频取之不尽。如果AI能自学看懂世界,视觉应用的落地速度会大幅加快。
打开网易新闻 查看精彩图片
热门跟贴