强化学习在稀疏奖励环境一直是个老大难问题。DeepMind团队最近放出一项研究,只用一段人类通关视频,就让AI学会了《蒙特祖玛的复仇》——这款以难度著称的经典游戏。

关键突破在于"单演示"设定。传统方法需要成千上万次试错,或者大量人工标注数据。而这次的核心思路是:让AI先"看懂"人类怎么玩,再自己摸索优化。

打开网易新闻 查看精彩图片

技术层面,团队设计了两阶段训练。第一阶段从单段演示中提取抽象意图,比如"拿到钥匙""开门"这些高层目标;第二阶段让AI在模拟环境中尝试复现,同时允许偏离演示路径探索更优解。

结果相当扎实。AI不仅成功通关,部分关卡还找到了比人类演示更高效的路线。这说明单条轨迹里的信息密度,远比想象中高。

打开网易新闻 查看精彩图片

更值得玩味的是应用场景。游戏是可控实验场,但类似逻辑可以迁移到机器人操作、自动驾驶这些"试错成本极高"的领域——你没法让无人车在真实路况撞一千次来学规则。

当然,演示质量仍是瓶颈。如果人类操作本身有瑕疵,AI会原样继承还是自主修正?论文没给出完整答案,但这正是下一步值得盯紧的方向。