打开网易新闻 查看精彩图片

1997年,IBM的深蓝击败国际象棋大师卡斯帕罗夫。2016年,AlphaGo战胜李世石。2025年,你走进一家游戏店,随手拿起一款没玩过的独立游戏——这时候,人类依然能碾压最顶尖的AI。

纽约大学计算机科学教授Julian Togelius团队的最新研究给出了一个反直觉的结论:在"零样本游戏学习"这个赛道上,人类玩家平均只需要3到10分钟理解核心机制,而当前最先进的AI模型面对完全陌生的游戏,结果几乎是确定的失败。

这不是怀旧情结。研究团队测试了多款大语言模型(LLM,即支撑ChatGPT等产品的底层技术)在全新游戏环境中的表现。当游戏规则需要实时探索、物理直觉和常识推理时,AI的表现堪称灾难。

AI的"肌肉记忆"陷阱

AI的"肌肉记忆"陷阱

问题的根源在于训练方法的差异。强化学习(reinforcement learning)让AI通过数百万次试错迭代,在封闭环境中打磨出超人类表现。DeepMind 2015年征服Atari游戏库,OpenAI Five在Dota 2中击败职业选手,都是这一路径的胜利。

但Togelius指出,这种"暴力美学"有个致命盲区:AI学到的不是"理解游戏",而是"记住这个特定游戏的奖励函数"。换个角度说,AlphaGo能下赢围棋,是因为它把围棋的19×19棋盘当成了宇宙的全部真理。你让它改玩五子棋,它不会觉得"规则类似但更简单",而是直接归零重启。

人类玩家则完全不同。我们走进游戏店,看到平台跳跃类游戏,会本能地联想到重力、惯性、碰撞体积——这些来自现实世界的"迁移知识"。研究团队观察到,面对一款从未见过的2D解谜游戏,人类能在几分钟内建立假设、验证机制、调整策略,而AI往往卡在"这个按钮按下去会发生什么"的基础探索阶段。

「如果你把一个大语言模型扔进它没见过的游戏,结果几乎是确定的失败。」Togelius在论文中写道。

开放世界 vs. 封闭沙盒

开放世界 vs. 封闭沙盒

游戏类型决定了AI的狼狈程度。在规则明确、目标单一的竞技游戏中(星际争霸2、Dota 2),AI可以靠算力堆出天花板级的微操。但一旦进入"开放目标"或"物理沙盒"类游戏——比如需要理解"这个箱子可以垫脚""那个杠杆能开门"的场景——AI的认知框架就会暴露短板。

研究团队设计了一组对比实验:同一款平台跳跃游戏,人类玩家平均死亡12次后找到通关路径;GPT-4级别的模型在相同时间限制内,有73%的概率完全无法触发关键机制,陷入随机按键的循环。

更讽刺的是,当AI被赋予"用自然语言描述当前状态"的能力时,表现反而下降。模型会生成冗长的场景分析("我看到一个红色方块在蓝色平台上方"),却延迟了实际操作——这种"想太多"的特质在实时游戏中是致命的。

人类玩家的优势不是反应速度,而是"常识压缩"的能力。我们知道火焰危险、重力向下、门通常需要钥匙或开关——这些来自现实世界的先验知识,让游戏学习变成了"模式匹配"而非"从零推导"。

通用智能的试金石

通用智能的试金石

Togelius团队的研究动机远不止游戏本身。游戏被AI领域长期视为"通用智能的简化实验室",正是因为它们有清晰的目标、可量化的表现、可重复的环境。如果连这个简化版都搞不定,AGI(通用人工智能)的路线图就需要重新校准。

当前大模型的训练数据包含了海量游戏攻略、直播视频和论坛讨论,但这恰恰制造了"数据污染"的陷阱。当AI在《塞尔达传说》中表现优异时,很难判断它是"真正理解了物理谜题",还是"在训练集中见过类似布局"。

研究团队提出的解决方案指向"具身认知"(embodied cognition)——让AI像人类一样,通过物理交互积累世界模型,而非仅靠文本和像素预测。这解释了为什么机器人领域的进展(波士顿动力的Atlas、Figure AI的人形机)与游戏AI形成了有趣的对照:前者笨拙但适应性强,后者华丽却脆弱。

「游戏测试揭示了一个被忽视的维度:智能不仅是解决问题,更是快速定义问题。」论文合著者、MIT博士后研究员Anurag Banerjee补充道。

玩家的隐藏价值

玩家的隐藏价值

这项研究对游戏行业有直接的商业含义。 procedurally generated games(程序化生成游戏,如《我的世界》《无人深空》)依赖算法创造无限内容,但测试这些内容的可玩性至今仍需要大量人类QA。如果AI无法像人类一样"盲玩"新游戏,自动化测试的愿景就存在根本性的天花板。

更深层的问题关乎AI产品的设计哲学。ChatGPT和Claude等工具被包装为"通用助手",但游戏测试表明,它们的"通用性"是有边界的——高度依赖训练数据的分布,对分布外的任务缺乏人类式的弹性。

Togelius在访谈中打了个比方:「现在的AI像是那种考试前把整本教科书背下来的学生,题目稍微变个花样就懵。人类玩家则是真正理解了概念,所以能应付没见过的题型。」

这个类比或许不够严谨,但指向了一个紧迫的研发方向。2024年以来,多家AI实验室将"智能体"(agent)能力作为优先目标,试图让模型不仅能对话,还能在数字环境中自主行动。游戏,作为最丰富、最安全、最便宜的数字环境,正在成为这场竞赛的主战场。

谷歌DeepMind的SIMA项目、OpenAI的"Operator"、Anthropic的"Computer Use"功能,都在尝试突破"零样本游戏学习"的瓶颈。但Togelius的论文提供了一个冷静的基准线:在通用游戏智能这个指标上,人类依然领先至少一个数量级。

下一次当你因为手残被游戏Boss虐到摔手柄时,可以换个角度安慰自己:你面对陌生机制时的适应速度,仍然是价值数十亿美元的AI产业尚未攻克的堡垒。问题是,这个领先优势,我们还能保持多久?