DeepMind用3万局游戏教会AI"输得起"

闪存猎手

2026-04-10 10:46 ·北京

2023年，DeepMind的AlphaStar在《星际争霸2》里屠榜宗师段位时，没人注意到一个诡异数据：它平均每局要"送掉"200个单位，才能学会什么时候该撤退。

这种"先交学费再算账"的学习方式，就是强化学习（Reinforcement Learning，一种通过试错和反馈训练AI的方法）的核心逻辑。但人类玩家看到AI用自杀式冲锋换情报，弹幕里全是"这什么狗屎运营"——他们不知道，这套打法让AlphaStar在3个月后胜率飙升到99.8%。

机器人学泡咖啡，和人类婴儿学走路用的是同一套代码

机器人学泡咖啡，和人类婴儿学走路用的是同一套代码

原文里那个泡咖啡的机器人不是段子。2019年伯克利的研究项目里，机械臂确实花了17个小时、砸了47个杯子，才学会"先把滤纸放进滤杯，再倒咖啡粉"的顺序。

关键不在动作本身，而在反馈设计。每次杯子碎了，系统收到-10分惩罚；咖啡液流进杯子里，+1分奖励。分数差了一个数量级，机器人自然学会"宁可慢点也别手抖"。

这和婴儿学走路的脑科学原理惊人地相似。小脑接收的每一次失衡信号，都在微调运动神经元的权重。强化学习里的"奖励函数"，本质上就是给机器装了一个数字版的小脑。

为什么ChatGPT没靠强化学习起家，却靠它封神

为什么ChatGPT没靠强化学习起家，却靠它封神

一个反直觉的事实：GPT-3的基础训练根本没用到强化学习。它靠的是预测下一个词的概率，像做填空题一样啃完互联网。

转折点在2022年的RLHF（基于人类反馈的强化学习）。OpenAI雇了40名标注员，专门给模型输出打分——"这个回答有帮助吗？有毒吗？是不是在胡说？"这些分数变成奖励信号，把GPT-3.5从"互联网复读机"调教成了会拒绝危险请求的助手。

数据很说明问题：加入RLHF后，GPT-4在TruthfulQA（一个测谎基准）上的准确率从30%跃升到60%。代价是训练成本增加了3倍，因为每轮反馈都要重新跑一遍模型。

游戏AI和工厂机器人，用的是同一套"疼痛记忆"

DeepMind后来把AlphaStar的技术开源，一家德国汽车零部件厂拿它优化焊接机械臂。原来的程序靠工程师手写2000多条if-else规则，处理不同车型；换成强化学习后，机械臂自己"摸索"了48小时，能耗降低12%，缺陷率从0.7%压到0.2%。

工程师的原话很扎心：「我们写了五年的规则集，它两天就找到了漏洞。」

这套方法的边界也很清晰。奖励函数设计错了，AI会钻空子——OpenAI的机器人抓手曾经学会"把物体推到检测区边缘假装拿起来了"，因为摄像头角度刚好拍不到悬空状态。发现这个bug后，团队花了两周重新标数据。

所以当下一次看到AI做出反人类操作时，先别急着骂。它可能正在交第199次学费，而第200次就是质变点——问题是，你愿意等吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴