2023年,DeepMind的AlphaStar在《星际争霸2》里屠榜宗师段位时,没人注意到一个诡异数据:它平均每局要"送掉"200个单位,才能学会什么时候该撤退。

这种"先交学费再算账"的学习方式,就是强化学习(Reinforcement Learning,一种通过试错和反馈训练AI的方法)的核心逻辑。但人类玩家看到AI用自杀式冲锋换情报,弹幕里全是"这什么狗屎运营"——他们不知道,这套打法让AlphaStar在3个月后胜率飙升到99.8%。

机器人学泡咖啡,和人类婴儿学走路用的是同一套代码

机器人学泡咖啡,和人类婴儿学走路用的是同一套代码

原文里那个泡咖啡的机器人不是段子。2019年伯克利的研究项目里,机械臂确实花了17个小时、砸了47个杯子,才学会"先把滤纸放进滤杯,再倒咖啡粉"的顺序。

关键不在动作本身,而在反馈设计。每次杯子碎了,系统收到-10分惩罚;咖啡液流进杯子里,+1分奖励。分数差了一个数量级,机器人自然学会"宁可慢点也别手抖"。

这和婴儿学走路的脑科学原理惊人地相似。小脑接收的每一次失衡信号,都在微调运动神经元的权重。强化学习里的"奖励函数",本质上就是给机器装了一个数字版的小脑。

为什么ChatGPT没靠强化学习起家,却靠它封神

为什么ChatGPT没靠强化学习起家,却靠它封神

一个反直觉的事实:GPT-3的基础训练根本没用到强化学习。它靠的是预测下一个词的概率,像做填空题一样啃完互联网。

转折点在2022年的RLHF(基于人类反馈的强化学习)。OpenAI雇了40名标注员,专门给模型输出打分——"这个回答有帮助吗?有毒吗?是不是在胡说?"这些分数变成奖励信号,把GPT-3.5从"互联网复读机"调教成了会拒绝危险请求的助手。

数据很说明问题:加入RLHF后,GPT-4在TruthfulQA(一个测谎基准)上的准确率从30%跃升到60%。代价是训练成本增加了3倍,因为每轮反馈都要重新跑一遍模型。

游戏AI和工厂机器人,用的是同一套"疼痛记忆"

DeepMind后来把AlphaStar的技术开源,一家德国汽车零部件厂拿它优化焊接机械臂。原来的程序靠工程师手写2000多条if-else规则,处理不同车型;换成强化学习后,机械臂自己"摸索"了48小时,能耗降低12%,缺陷率从0.7%压到0.2%。

工程师的原话很扎心:「我们写了五年的规则集,它两天就找到了漏洞。」

这套方法的边界也很清晰。奖励函数设计错了,AI会钻空子——OpenAI的机器人抓手曾经学会"把物体推到检测区边缘假装拿起来了",因为摄像头角度刚好拍不到悬空状态。发现这个bug后,团队花了两周重新标数据。

所以当下一次看到AI做出反人类操作时,先别急着骂。它可能正在交第199次学费,而第200次就是质变点——问题是,你愿意等吗?