腾讯武大联手打造“会思考的AI”：像人一样学游戏，决策全透明

DATAVIEW

2025-10-22 15:11 ·浙江

2025年9月，腾讯与武汉大学的联合研究团队（由腾讯王赛、徐中文及武大吴宇领衔）发表了一项颠覆性成果——名为“Cogito, ergo ludo”（简称 CEL，意为 “我思故我玩”）的AI智能体。不同于只会“死记硬背” 的传统AI，它能像人一样观察、思考、总结规律，甚至清晰说出决策逻辑，相关论文可通过编号arXiv:2509.25052v1查询。

想象你第一次玩新游戏：先摸索规则，再积累经验，最后制定策略。CEL正是这样的 “智能玩家”。传统AI学下棋要看完百万局棋谱，靠调整参数形成条件反射，就像不会理解逻辑的表演海豚；而CEL的决策全程透明，就像身边的游戏高手会告诉你 “为什么这么走”。

一、从 “背答案” 到 “想问题”：AI的学习革命

一、从 “背答案” 到 “想问题”：AI的学习革命

传统AI的痛点很明显：它是个“黑箱学霸”。要让它学会游戏，得喂给它海量数据反复训练，但你问它“为什么选这个方案”，它只会答“我背过”。这种不透明性，让医疗、自动驾驶等关键领域不敢轻易信任AI。

CEL彻底改变了学习逻辑，分成“游戏中思考”和“游戏后反思”两步：

决策时前瞻：像棋手算棋一样，先评估当前局面，预测每个动作的后果，再选最优解，全程可追溯思考路径；
结束后复盘：好比考完试整理错题本，回顾全程对错，更新对规则的理解和策略库。这种 “边玩边想边进步” 的模式，让它能快速吃透新游戏。

二、AI的“智囊团”：四个“专家”协同工作

二、AI的“智囊团”：四个“专家”协同工作

CEL 的“大脑” 由四个各司其职的 “专家” 组成，像高效协作的团队：

规则理解专家：靠观察猜规则，就像小孩看别人下棋悟玩法，还能用自然语言写出“游戏说明书”；
结果预测专家：模拟行动后果，比如 “走这步会触发陷阱吗”，堪比棋手脑中的 “沙盘推演”；
局面评估专家：给当前状态打分，判断“赢面有多大”，帮团队筛选方向；
策略总结专家：攒“游戏攻略”，比如 “扫雷先开角落”“推箱子别堵死路”，还会随经验更新。

决策时，评估专家先定基调，预测专家模拟后果，策略专家给建议，最终选出最优解；游戏结束后，规则专家和策略专家更新知识库，为下一局做准备。

三、三重考验：从零学起的游戏实战

三、三重考验：从零学起的游戏实战

研究团队选了三种经典游戏“考”CEL，而且故意加了难度：开局完全不教规则，只给基础操作，还得等游戏结束才知道“输还是赢”，堪比蒙眼摸路。

扫雷（逻辑推理题）：靠数字线索猜地雷位置，考验严密思维；
冰湖导航（路径规划题）：从起点到终点避陷阱，需要空间判断；
推箱子（工程规划题）：要把箱子推到目标点，还不能推到死角，得提前想好几步操作。

四、成绩惊艳：比 “知规则” 的AI更会玩

四、成绩惊艳：比 “知规则” 的AI更会玩

CEL的表现打破了预期：

扫雷胜率54%：远超提前被告知完整规则的AI（仅26%），证明自主领悟比 “喂答案”更有效；
冰湖导航10局通关：短短10回合胜率就达97%，学习速度接近人类；
推箱子“顿悟时刻”：摸索一段时间后，胜率突然飙升到84%，像人突然 “想通了诀窍”。

更厉害的是它的“举一反三”能力：用扫雷训练的CEL去玩冰湖导航，虽然不懂新规则，却能快速上手。这说明它学会的不是“某款游戏技巧”，而是“怎么学新游戏” 的通用能力。

五、看得见的思考：AI 的“决策日记”

五、看得见的思考：AI 的“决策日记”

CEL最圈粉的是“透明”。玩扫雷时，它会“说”出思考过程：

“现在只剩一个安全格要开，价值很高。位置 (0,3) 是安全的——旁边 (1,2) 是1、(1,3) 是2，说明 (0,2) 和 (0,3) 里有一个地雷，但 (0,2) 已经确定是雷，所以 (0,3) 肯定安全，开它就能赢。而 (0,2) 是雷，开了就输。”

它还能自己写 “游戏手册”，比如扫雷规则被总结得一清二楚：“‘.’是未开格子，‘0’是无雷安全格，‘n’表示周围有n个雷，‘*’是雷（踩了游戏结束）”。连 “用数字推地雷位置”“优先开安全格” 等高级策略，都是它自己悟出来的。

六、不止于游戏：AI的未来方向

六、不止于游戏：AI的未来方向

CEL的突破，远不止 “游戏打得好”：

迈向通用AI：传统AI是“专才”，下象棋的不会下围棋；CEL的跨游戏学习能力，暗示未来AI可能成为“通才”；
解决信任难题：就像医疗领域需要可解释的AI诊断依据，CEL的透明性让人类能 “看懂” AI决策，为关键领域应用铺路；
技术融合创新：它结合了大语言模型的推理能力和强化学习的试错机制，还用 GRPO技术像老师改作业一样优化推理模式。

未来，它可能成为：

教育领域的“私教”：展示解题思路，帮学生学会 “怎么想”；
科研领域的“助手”：分析实验数据、提假设，还能说清推理过程；
商业领域的“顾问”：给决策建议时附上依据，帮管理者拍板。

当然挑战还在：目前它只玩转简单游戏，现实世界的复杂场景更难应对；如何确保智能AI符合人类价值观，也需要持续探索。但不可否认，CEL让“会思考的AI” 从概念落地，未来我们可能不再需要盲目信任“黑箱”，而是与透明、理性的AI伙伴协作。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴