2018年,Meta(当时还叫Facebook)放出了一个叫Horizon的开源项目。这不是普通的工具包,而是专门解决一个头疼问题的:怎么把强化学习从游戏和论文里,搬到真实的产品系统里。
Horizon的核心设计很直白——内置了特征预处理、模型选择和分布式训练。换句话说,它把算法工程师反复造轮子的部分打包好了。平台支持从模拟环境到在线服务的完整链路,这意味着你可以先在假数据上跑通,再逐步切到真实流量。
打开网易新闻 查看精彩图片
当时强化学习的痛点很明显:论文里的效果很漂亮,但一到工业级数据规模就崩。Horizon的做法是用Apache Spark做大规模特征工程,再用Caffe2和PyTorch做模型训练,最后用ONNX统一推理格式。这套组合在2018年算是比较务实的选择。
打开网易新闻 查看精彩图片
开源这个决定的背景也值得注意。同期Google有TF-Agents,DeepMind有TRFL,但都是偏研究导向。Meta选择把内部打磨了两年的工程代码放出来,明显是想抢占"生产级强化学习"这个生态位。
打开网易新闻 查看精彩图片
七年后再看,Horizon的很多设计思路——模块化、可扩展、从离线到在线的渐进部署——已经成了行业标配。但当时敢把这套东西开源,确实需要点底气。
热门跟贴