2025年9月,腾讯与武汉大学的联合研究团队(由腾讯王赛、徐中文及武大吴宇领衔)发表了一项颠覆性成果——名为“Cogito, ergo ludo”(简称 CEL,意为 “我思故我玩”)的AI智能体。不同于只会“死记硬背” 的传统AI,它能像人一样观察、思考、总结规律,甚至清晰说出决策逻辑,相关论文可通过编号arXiv:2509.25052v1查询。
想象你第一次玩新游戏:先摸索规则,再积累经验,最后制定策略。CEL正是这样的 “智能玩家”。传统AI学下棋要看完百万局棋谱,靠调整参数形成条件反射,就像不会理解逻辑的表演海豚;而CEL的决策全程透明,就像身边的游戏高手会告诉你 “为什么这么走”。
一、从 “背答案” 到 “想问题”:AI的学习革命
传统AI的痛点很明显:它是个“黑箱学霸”。要让它学会游戏,得喂给它海量数据反复训练,但你问它“为什么选这个方案”,它只会答“我背过”。这种不透明性,让医疗、自动驾驶等关键领域不敢轻易信任AI。
CEL彻底改变了学习逻辑,分成“游戏中思考”和“游戏后反思”两步:
- 决策时前瞻:像棋手算棋一样,先评估当前局面,预测每个动作的后果,再选最优解,全程可追溯思考路径;
- 结束后复盘:好比考完试整理错题本,回顾全程对错,更新对规则的理解和策略库。这种 “边玩边想边进步” 的模式,让它能快速吃透新游戏。
二、AI的“智囊团”:四个“专家”协同工作
CEL 的“大脑” 由四个各司其职的 “专家” 组成,像高效协作的团队:
- 规则理解专家:靠观察猜规则,就像小孩看别人下棋悟玩法,还能用自然语言写出“游戏说明书”;
- 结果预测专家:模拟行动后果,比如 “走这步会触发陷阱吗”,堪比棋手脑中的 “沙盘推演”;
- 局面评估专家:给当前状态打分,判断“赢面有多大”,帮团队筛选方向;
- 策略总结专家:攒“游戏攻略”,比如 “扫雷先开角落”“推箱子别堵死路”,还会随经验更新。
决策时,评估专家先定基调,预测专家模拟后果,策略专家给建议,最终选出最优解;游戏结束后,规则专家和策略专家更新知识库,为下一局做准备。
三、三重考验:从零学起的游戏实战
研究团队选了三种经典游戏“考”CEL,而且故意加了难度:开局完全不教规则,只给基础操作,还得等游戏结束才知道“输还是赢”,堪比蒙眼摸路。
四、成绩惊艳:比 “知规则” 的AI更会玩
CEL的表现打破了预期:
- 扫雷胜率54%:远超提前被告知完整规则的AI(仅26%),证明自主领悟比 “喂答案”更有效;
- 冰湖导航10局通关:短短10回合胜率就达97%,学习速度接近人类;
- 推箱子“顿悟时刻”:摸索一段时间后,胜率突然飙升到84%,像人突然 “想通了诀窍”。
更厉害的是它的“举一反三”能力:用扫雷训练的CEL去玩冰湖导航,虽然不懂新规则,却能快速上手。这说明它学会的不是“某款游戏技巧”,而是“怎么学新游戏” 的通用能力。
五、看得见的思考:AI 的“决策日记”
CEL最圈粉的是“透明”。玩扫雷时,它会“说”出思考过程:
“现在只剩一个安全格要开,价值很高。位置 (0,3) 是安全的——旁边 (1,2) 是1、(1,3) 是2,说明 (0,2) 和 (0,3) 里有一个地雷,但 (0,2) 已经确定是雷,所以 (0,3) 肯定安全,开它就能赢。而 (0,2) 是雷,开了就输。”
它还能自己写 “游戏手册”,比如扫雷规则被总结得一清二楚:“‘.’是未开格子,‘0’是无雷安全格,‘n’表示周围有n个雷,‘*’是雷(踩了游戏结束)”。连 “用数字推地雷位置”“优先开安全格” 等高级策略,都是它自己悟出来的。
六、不止于游戏:AI的未来方向
CEL的突破,远不止 “游戏打得好”:
- 迈向通用AI:传统AI是“专才”,下象棋的不会下围棋;CEL的跨游戏学习能力,暗示未来AI可能成为“通才”;
- 解决信任难题:就像医疗领域需要可解释的AI诊断依据,CEL的透明性让人类能 “看懂” AI决策,为关键领域应用铺路;
- 技术融合创新:它结合了大语言模型的推理能力和强化学习的试错机制,还用 GRPO技术像老师改作业一样优化推理模式。
未来,它可能成为:
- 教育领域的“私教”:展示解题思路,帮学生学会 “怎么想”;
- 科研领域的“助手”:分析实验数据、提假设,还能说清推理过程;
- 商业领域的“顾问”:给决策建议时附上依据,帮管理者拍板。
当然挑战还在:目前它只玩转简单游戏,现实世界的复杂场景更难应对;如何确保智能AI符合人类价值观,也需要持续探索。但不可否认,CEL让“会思考的AI” 从概念落地,未来我们可能不再需要盲目信任“黑箱”,而是与透明、理性的AI伙伴协作。
热门跟贴