强化学习(Reinforcement Learning,RL)在围棋、游戏等封闭环境中表现惊艳,但走出实验室后,这套方法论遭遇了系统性困境。

核心矛盾在于:模拟环境可以无限试错,真实世界代价高昂。机器人摔一次、自动驾驶撞一次,成本都不是代码能承受的。

打开网易新闻 查看精彩图片

数据层面同样棘手。游戏有明确的胜负规则,现实任务的奖励信号稀疏且延迟——教机械臂叠衣服,"叠好"的反馈可能要在几十步后才出现,梯度根本传不回去。

打开网易新闻 查看精彩图片

更麻烦的是环境动态性。训练时假设的分布,部署后迅速失效。实验室里的鲁棒性,往往经不起真实用户的一通乱按。

论文作者团队调研了多个工业级RL项目,发现工程化瓶颈远超算法创新。仿真到现实的迁移(Sim-to-Real)、安全约束的硬编码、在线学习的稳定性,每一项都是深坑。

打开网易新闻 查看精彩图片

结论并不悲观:RL的价值在特定垂直场景已被验证,但"通用智能"的叙事需要降温。先解决奖励设计、样本效率、可解释性这些老问题,比追逐新架构更务实。