864分,Breakout的理论满分。达成这个成绩的AI,内部没有训练过任何神经网络。

这是OpenAI研究员翁家翌提出的强化学习新范式——启发式学习(Heuristic Learning,HL)。它不更新参数,不依赖梯度下降,全程由GPT-5.4驱动的Codex自主迭代,把决策策略从神经网络权重转化为可读的程序代码。

打开网易新闻 查看精彩图片

传统深度强化学习有三大痼疾:灾难性遗忘、决策黑箱、样本效率低下。HL的解法很直接:既然参数更新是根源,那就不要参数。

在HL框架里,AI维护的是一套完整的软件系统——显式状态检测器、显式规则逻辑、测试用例、回归检查、失败记录、版本历史。每次迭代,Codex审视系统表现,阅读失败录像,分析日志,做出结构性调整。知识以模块形式封装,随时可调用、可验证,不会被覆盖。

完整的Atari 57基准测试显示,HL整体中位表现已与PPO等主流算法持平,在Breakout、Asterix、Jamesbond等多款游戏中超越人类基准。更具挑战性的是MuJoCo机器人控制任务:四足机器人Ant评分突破6000分,HalfCheetah猎豹任务跑出11836分,性能对标专业深度强化学习模型。

翁家翌坦承边界:纯Python代码、不用神经网络解决ImageNet,目前难以想象。特征抽象仍是深度网络的强项。HL的核心价值在于策略持续迭代——当环境动态变化、需要长期自适应调整时,显性化的代码规则系统更适配持续学习需求。

未来的关键命题是融合:HL实时处理在线数据流,沉淀可复用的行为经验,再转化为高质量数据集,周期性迭代更新神经网络。在线学习与持续学习,或许能一并攻克。