2025年9月,腾讯与武汉大学的联合研究团队(由腾讯王赛、徐中文及武大吴宇领衔)发表了一项颠覆性成果——名为“Cogito, ergo ludo”(简称 CEL,意为 “我思故我玩”)的AI智能体。不同于只会“死记硬背” 的传统AI,它能像人一样观察、思考、总结规律,甚至清晰说出决策逻辑,相关论文可通过编号arXiv:2509.25052v1查询。

想象你第一次玩新游戏:先摸索规则,再积累经验,最后制定策略。CEL正是这样的 “智能玩家”。传统AI学下棋要看完百万局棋谱,靠调整参数形成条件反射,就像不会理解逻辑的表演海豚;而CEL的决策全程透明,就像身边的游戏高手会告诉你 “为什么这么走”。

打开网易新闻 查看精彩图片

一、从 “背答案” 到 “想问题”:AI的学习革命

一、从 “背答案” 到 “想问题”:AI的学习革命

传统AI的痛点很明显:它是个“黑箱学霸”。要让它学会游戏,得喂给它海量数据反复训练,但你问它“为什么选这个方案”,它只会答“我背过”。这种不透明性,让医疗、自动驾驶等关键领域不敢轻易信任AI。

CEL彻底改变了学习逻辑,分成“游戏中思考”和“游戏后反思”两步:

  • 决策时前瞻:像棋手算棋一样,先评估当前局面,预测每个动作的后果,再选最优解,全程可追溯思考路径;
  • 结束后复盘:好比考完试整理错题本,回顾全程对错,更新对规则的理解和策略库。这种 “边玩边想边进步” 的模式,让它能快速吃透新游戏。

打开网易新闻 查看精彩图片

二、AI的“智囊团”:四个“专家”协同工作

二、AI的“智囊团”:四个“专家”协同工作

CEL 的“大脑” 由四个各司其职的 “专家” 组成,像高效协作的团队:

  1. 规则理解专家:靠观察猜规则,就像小孩看别人下棋悟玩法,还能用自然语言写出“游戏说明书”;
  2. 结果预测专家:模拟行动后果,比如 “走这步会触发陷阱吗”,堪比棋手脑中的 “沙盘推演”;
  3. 局面评估专家:给当前状态打分,判断“赢面有多大”,帮团队筛选方向;
  4. 策略总结专家:攒“游戏攻略”,比如 “扫雷先开角落”“推箱子别堵死路”,还会随经验更新。

决策时,评估专家先定基调,预测专家模拟后果,策略专家给建议,最终选出最优解;游戏结束后,规则专家和策略专家更新知识库,为下一局做准备。

打开网易新闻 查看精彩图片

三、三重考验:从零学起的游戏实战

三、三重考验:从零学起的游戏实战

研究团队选了三种经典游戏“考”CEL,而且故意加了难度:开局完全不教规则,只给基础操作,还得等游戏结束才知道“输还是赢”,堪比蒙眼摸路。

  • 扫雷(逻辑推理题):靠数字线索猜地雷位置,考验严密思维;
  • 冰湖导航(路径规划题):从起点到终点避陷阱,需要空间判断;
  • 推箱子(工程规划题):要把箱子推到目标点,还不能推到死角,得提前想好几步操作。

四、成绩惊艳:比 “知规则” 的AI更会玩

四、成绩惊艳:比 “知规则” 的AI更会玩

CEL的表现打破了预期:

  • 扫雷胜率54%:远超提前被告知完整规则的AI(仅26%),证明自主领悟比 “喂答案”更有效;
  • 冰湖导航10局通关:短短10回合胜率就达97%,学习速度接近人类;
  • 推箱子“顿悟时刻”:摸索一段时间后,胜率突然飙升到84%,像人突然 “想通了诀窍”。

更厉害的是它的“举一反三”能力:用扫雷训练的CEL去玩冰湖导航,虽然不懂新规则,却能快速上手。这说明它学会的不是“某款游戏技巧”,而是“怎么学新游戏” 的通用能力。

五、看得见的思考:AI 的“决策日记”

五、看得见的思考:AI 的“决策日记”

CEL最圈粉的是“透明”。玩扫雷时,它会“说”出思考过程:

“现在只剩一个安全格要开,价值很高。位置 (0,3) 是安全的——旁边 (1,2) 是1、(1,3) 是2,说明 (0,2) 和 (0,3) 里有一个地雷,但 (0,2) 已经确定是雷,所以 (0,3) 肯定安全,开它就能赢。而 (0,2) 是雷,开了就输。”

它还能自己写 “游戏手册”,比如扫雷规则被总结得一清二楚:“‘.’是未开格子,‘0’是无雷安全格,‘n’表示周围有n个雷,‘*’是雷(踩了游戏结束)”。连 “用数字推地雷位置”“优先开安全格” 等高级策略,都是它自己悟出来的。

打开网易新闻 查看精彩图片

六、不止于游戏:AI的未来方向

六、不止于游戏:AI的未来方向

CEL的突破,远不止 “游戏打得好”:

  • 迈向通用AI:传统AI是“专才”,下象棋的不会下围棋;CEL的跨游戏学习能力,暗示未来AI可能成为“通才”;
  • 解决信任难题:就像医疗领域需要可解释的AI诊断依据,CEL的透明性让人类能 “看懂” AI决策,为关键领域应用铺路;
  • 技术融合创新:它结合了大语言模型的推理能力和强化学习的试错机制,还用 GRPO技术像老师改作业一样优化推理模式。

未来,它可能成为:

  • 教育领域的“私教”:展示解题思路,帮学生学会 “怎么想”;
  • 科研领域的“助手”:分析实验数据、提假设,还能说清推理过程;
  • 商业领域的“顾问”:给决策建议时附上依据,帮管理者拍板。

当然挑战还在:目前它只玩转简单游戏,现实世界的复杂场景更难应对;如何确保智能AI符合人类价值观,也需要持续探索。但不可否认,CEL让“会思考的AI” 从概念落地,未来我们可能不再需要盲目信任“黑箱”,而是与透明、理性的AI伙伴协作。