单演示通关蒙特祖玛：AI模仿学习的新极限

字节漫游指南

2026-05-07 00:01 ·北京

强化学习在稀疏奖励环境一直是个老大难问题。DeepMind团队最近放出一项研究，只用一段人类通关视频，就让AI学会了《蒙特祖玛的复仇》——这款以难度著称的经典游戏。

关键突破在于"单演示"设定。传统方法需要成千上万次试错，或者大量人工标注数据。而这次的核心思路是：让AI先"看懂"人类怎么玩，再自己摸索优化。

技术层面，团队设计了两阶段训练。第一阶段从单段演示中提取抽象意图，比如"拿到钥匙""开门"这些高层目标；第二阶段让AI在模拟环境中尝试复现，同时允许偏离演示路径探索更优解。

结果相当扎实。AI不仅成功通关，部分关卡还找到了比人类演示更高效的路线。这说明单条轨迹里的信息密度，远比想象中高。

更值得玩味的是应用场景。游戏是可控实验场，但类似逻辑可以迁移到机器人操作、自动驾驶这些"试错成本极高"的领域——你没法让无人车在真实路况撞一千次来学规则。

当然，演示质量仍是瓶颈。如果人类操作本身有瑕疵，AI会原样继承还是自主修正？论文没给出完整答案，但这正是下一步值得盯紧的方向。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴