谷歌AlphaGo赢了围棋，却在游戏店栽了：人类3小时通关|alphago|围棋|李世石|沙盒|游戏店|知名企业|解谜游戏|谷歌

1997年，IBM的深蓝击败国际象棋大师卡斯帕罗夫。2016年，AlphaGo战胜李世石。2025年，你走进一家游戏店，随手拿起一款没玩过的独立游戏——这时候，人类依然能碾压最顶尖的AI。

纽约大学计算机科学教授Julian Togelius团队的最新研究给出了一个反直觉的结论：在"零样本游戏学习"这个赛道上，人类玩家平均只需要3到10分钟理解核心机制，而当前最先进的AI模型面对完全陌生的游戏，结果几乎是确定的失败。

这不是怀旧情结。研究团队测试了多款大语言模型（LLM，即支撑ChatGPT等产品的底层技术）在全新游戏环境中的表现。当游戏规则需要实时探索、物理直觉和常识推理时，AI的表现堪称灾难。

AI的"肌肉记忆"陷阱

问题的根源在于训练方法的差异。强化学习（reinforcement learning）让AI通过数百万次试错迭代，在封闭环境中打磨出超人类表现。DeepMind 2015年征服Atari游戏库，OpenAI Five在Dota 2中击败职业选手，都是这一路径的胜利。

但Togelius指出，这种"暴力美学"有个致命盲区：AI学到的不是"理解游戏"，而是"记住这个特定游戏的奖励函数"。换个角度说，AlphaGo能下赢围棋，是因为它把围棋的19×19棋盘当成了宇宙的全部真理。你让它改玩五子棋，它不会觉得"规则类似但更简单"，而是直接归零重启。

人类玩家则完全不同。我们走进游戏店，看到平台跳跃类游戏，会本能地联想到重力、惯性、碰撞体积——这些来自现实世界的"迁移知识"。研究团队观察到，面对一款从未见过的2D解谜游戏，人类能在几分钟内建立假设、验证机制、调整策略，而AI往往卡在"这个按钮按下去会发生什么"的基础探索阶段。

「如果你把一个大语言模型扔进它没见过的游戏，结果几乎是确定的失败。」Togelius在论文中写道。

开放世界 vs. 封闭沙盒

游戏类型决定了AI的狼狈程度。在规则明确、目标单一的竞技游戏中（星际争霸2、Dota 2），AI可以靠算力堆出天花板级的微操。但一旦进入"开放目标"或"物理沙盒"类游戏——比如需要理解"这个箱子可以垫脚""那个杠杆能开门"的场景——AI的认知框架就会暴露短板。

研究团队设计了一组对比实验：同一款平台跳跃游戏，人类玩家平均死亡12次后找到通关路径；GPT-4级别的模型在相同时间限制内，有73%的概率完全无法触发关键机制，陷入随机按键的循环。

更讽刺的是，当AI被赋予"用自然语言描述当前状态"的能力时，表现反而下降。模型会生成冗长的场景分析（"我看到一个红色方块在蓝色平台上方"），却延迟了实际操作——这种"想太多"的特质在实时游戏中是致命的。

人类玩家的优势不是反应速度，而是"常识压缩"的能力。我们知道火焰危险、重力向下、门通常需要钥匙或开关——这些来自现实世界的先验知识，让游戏学习变成了"模式匹配"而非"从零推导"。

通用智能的试金石

Togelius团队的研究动机远不止游戏本身。游戏被AI领域长期视为"通用智能的简化实验室"，正是因为它们有清晰的目标、可量化的表现、可重复的环境。如果连这个简化版都搞不定，AGI（通用人工智能）的路线图就需要重新校准。

当前大模型的训练数据包含了海量游戏攻略、直播视频和论坛讨论，但这恰恰制造了"数据污染"的陷阱。当AI在《塞尔达传说》中表现优异时，很难判断它是"真正理解了物理谜题"，还是"在训练集中见过类似布局"。

研究团队提出的解决方案指向"具身认知"（embodied cognition）——让AI像人类一样，通过物理交互积累世界模型，而非仅靠文本和像素预测。这解释了为什么机器人领域的进展（波士顿动力的Atlas、Figure AI的人形机）与游戏AI形成了有趣的对照：前者笨拙但适应性强，后者华丽却脆弱。

「游戏测试揭示了一个被忽视的维度：智能不仅是解决问题，更是快速定义问题。」论文合著者、MIT博士后研究员Anurag Banerjee补充道。

玩家的隐藏价值

这项研究对游戏行业有直接的商业含义。 procedurally generated games（程序化生成游戏，如《我的世界》《无人深空》）依赖算法创造无限内容，但测试这些内容的可玩性至今仍需要大量人类QA。如果AI无法像人类一样"盲玩"新游戏，自动化测试的愿景就存在根本性的天花板。

更深层的问题关乎AI产品的设计哲学。ChatGPT和Claude等工具被包装为"通用助手"，但游戏测试表明，它们的"通用性"是有边界的——高度依赖训练数据的分布，对分布外的任务缺乏人类式的弹性。

Togelius在访谈中打了个比方：「现在的AI像是那种考试前把整本教科书背下来的学生，题目稍微变个花样就懵。人类玩家则是真正理解了概念，所以能应付没见过的题型。」

这个类比或许不够严谨，但指向了一个紧迫的研发方向。2024年以来，多家AI实验室将"智能体"（agent）能力作为优先目标，试图让模型不仅能对话，还能在数字环境中自主行动。游戏，作为最丰富、最安全、最便宜的数字环境，正在成为这场竞赛的主战场。

谷歌DeepMind的SIMA项目、OpenAI的"Operator"、Anthropic的"Computer Use"功能，都在尝试突破"零样本游戏学习"的瓶颈。但Togelius的论文提供了一个冷静的基准线：在通用游戏智能这个指标上，人类依然领先至少一个数量级。

下一次当你因为手残被游戏Boss虐到摔手柄时，可以换个角度安慰自己：你面对陌生机制时的适应速度，仍然是价值数十亿美元的AI产业尚未攻克的堡垒。问题是，这个领先优势，我们还能保持多久？

谷歌AlphaGo赢了围棋，却在游戏店栽了：人类3小时通关

AI的"肌肉记忆"陷阱

开放世界 vs. 封闭沙盒

通用智能的试金石

玩家的隐藏价值

热搜

热门跟贴

AI的"肌肉记忆"陷阱

开放世界 vs. 封闭沙盒

通用智能的试金石

玩家的隐藏价值

热搜

热门跟贴

相关推荐

谷歌Deep Think八语奥赛屠榜！自主攻克4大未解难题，科研壁垒崩塌

吴泳铭成立阿里技术委员会，为何这四人入选？

千人挤爆旧金山！OpenClaw首聚现场，AI龙虾开始接管现实世界

Meta首个“超级智能”模型亮相 闭源路线大转弯

大模型的下半场，属于拥有云+AI全栈引擎的玩家

美AI搜索引擎公司转投AI代理 按量收费引营收单月暴增50%

Faker再度回应马斯克的AI挑战，英雄联盟未必会重演围棋结局

李世石谈Faker与AI之战：电竞与围棋不同，他有胜算，我是真赢不了

围棋黑先巧妙破眼，精准计算绝杀棋局

机器人撒谎、发疯、创造宗教，70年前的科幻小说，竟然预言全中！

大妈吃面顺走大半罐花椒带走 店家：说好多次都没用 管不了

迟到6分钟、抽烟泄压：19岁柯洁的百灵杯之殇，输的不是闹钟

围棋生死一线：白先逆袭，手筋妙手扭转乾坤

《达尔文悖论！》评测：怪味小海鲜拼盘"/> 主站 商城 论坛 自运营 登录 注册 《达尔文悖论！》评测：怪味小海鲜拼盘 伊東 2026-04-07 返回

《达尔文悖论！》评测7.7分：怪味小海鲜拼盘

围棋攻防秘籍：弱点即破绽，无坚不摧的战术解析

围棋速成秘籍：送吃撞气杀棋，黑先布局提升棋力技巧

这机器人也太过分了吧，居然还上床睡觉，请把她的眼镜安上！

马斯克要用AI挑战英雄联盟最强战队 Faker回应：我们已经准备好了

阿曼称已签署不对霍尔木兹海峡通行船只收费的协议

Meta首个“超级智能”模型亮相闭源路线大转弯

美AI搜索引擎公司转投AI代理按量收费引营收单月暴增50%

大妈吃面顺走大半罐花椒带走店家：说好多次都没用管不了

《达尔文悖论！》评测：怪味小海鲜拼盘"/> 主站商城论坛自运营登录注册《达尔文悖论！》评测：怪味小海鲜拼盘伊東 2026-04-07 返回