不写一行神经网络，AI靠"手搓代码"打破游戏满分纪录

灰度测试中

2026-05-11 11:52 ·北京

864分，Breakout的理论满分。达成这个成绩的AI，内部没有训练过任何神经网络。

这是OpenAI研究员翁家翌提出的强化学习新范式——启发式学习（Heuristic Learning，HL）。它不更新参数，不依赖梯度下降，全程由GPT-5.4驱动的Codex自主迭代，把决策策略从神经网络权重转化为可读的程序代码。

传统深度强化学习有三大痼疾：灾难性遗忘、决策黑箱、样本效率低下。HL的解法很直接：既然参数更新是根源，那就不要参数。

在HL框架里，AI维护的是一套完整的软件系统——显式状态检测器、显式规则逻辑、测试用例、回归检查、失败记录、版本历史。每次迭代，Codex审视系统表现，阅读失败录像，分析日志，做出结构性调整。知识以模块形式封装，随时可调用、可验证，不会被覆盖。

完整的Atari 57基准测试显示，HL整体中位表现已与PPO等主流算法持平，在Breakout、Asterix、Jamesbond等多款游戏中超越人类基准。更具挑战性的是MuJoCo机器人控制任务：四足机器人Ant评分突破6000分，HalfCheetah猎豹任务跑出11836分，性能对标专业深度强化学习模型。

翁家翌坦承边界：纯Python代码、不用神经网络解决ImageNet，目前难以想象。特征抽象仍是深度网络的强项。HL的核心价值在于策略持续迭代——当环境动态变化、需要长期自适应调整时，显性化的代码规则系统更适配持续学习需求。

未来的关键命题是融合：HL实时处理在线数据流，沉淀可复用的行为经验，再转化为高质量数据集，周期性迭代更新神经网络。在线学习与持续学习，或许能一并攻克。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴