一个交易机器人在首次回测中亏了176美元。不是代码bug,不是数据错误——算法完全按设计运行,只是它学不会何时离场。
入场准确率48.6%,持仓平均27根K线,然后就开始"恐慌":盈利单跑得比兔子还快,亏损单抱得比初恋还紧。这本是台没有情绪的机器,却完美复刻了人类最糟糕的交易本能。
这是第4次实验。两次迭代后,同一套系统在2024-2025年完全未见过的数据上盈利507美元,夏普比率6.94,最大回撤0.98%。按凯利公式(Kelly Criterion)优化仓位,10万美元本金同期可增值至102万美元。
作者把这个项目命名为Amertume——法语"苦涩"之意。苦尽甘来。
从97%失败率里找活路
作者的身份很说明问题:他不是交易员,是产品经理出身的AI工程师。选择做交易机器人,纯粹因为"通过自营交易公司考核"是测试深度学习+强化学习融合的理想场景。
规则简单粗暴:盈利10%,回撤控制在5%以内。但难度在于背景数据——97%的交易者在这类考核中失败。
设计目标因此清晰:在波动中存活,而不是在波动中暴富。
Amertume之前,作者试过所有主流方案:
纯技术指标(RSI、MACD、布林带):滞后性严重,金叉死叉在震荡市反复打脸
传统机器学习(XGBoost、随机森林):遇到训练集外的市场 regime 就失效,树模型的"外推天花板"在金融市场是致命的
标准LSTM:能记住序列,但处理不了长程依赖和特征间关系
Transformer:理论上完美,自注意力机制的二次计算复杂度让实时交易变成不可能任务
所有方案共享一个核心困境:1分钟数据噪声太高,15分钟数据又可能错过关键转折。作者在前4版编码器(Encoder v1-v4)上撞了南墙——1分钟OHLCV数据训练出的模型,验证集准确率最高才41%,损失函数(Loss)在0.68-0.72区间死磕不动。
切换到15分钟数据是第5版编码器的转折点。准确率跃升至67%,损失降至0.42。噪声过滤与信号保留的权衡,最终偏向了后者。
xLSTM:LSTM发明者2024年的"补丁包"
核心问题始终没变:机器人需要判断"这是该追的突破,还是该忽略的噪音"。
解决方案选用了xLSTM——2024年由Sepp Hochreiter(1997年原始LSTM的发明者)推出的升级版。关键创新在于双内存架构:
sLSTM(标量内存):用指数门控机制追踪单一数值的时间演化,类似人类对"当前价格相对历史高低"的直觉
mLSTM(矩阵内存):存储多特征间的协变关系,比如"黄金与美元指数的负相关性在非农数据发布时是否失效"
这种设计让xLSTM在保持线性计算复杂度的同时,获得了接近Transformer的特征关联能力。对于需要毫秒级响应的交易系统,这是工程上的必要妥协。
作者对比了xLSTM与替代方案的底层差异:
树模型(XGBoost/随机森林)的致命伤在于外推机制——当测试数据落在训练分布之外,模型只能返回最近叶节点的平均值。金融市场的regime切换和前所未有的波动,恰好是"分布外"的高频事件。
Transformer解决了外推问题,但自注意力的二次复杂度(O(n²))意味着序列长度增加时,计算量呈指数爆炸。一篇研究论文的测算显示,处理典型交易时间窗口,Transformer的延迟是xLSTM的17-43倍。
xLSTM的取舍很产品经理思维:放弃完美的全局注意力,换取可接受的局部记忆与实时性能。
PPO:让机器人学会"止损"的奖惩机制
仅有好的特征提取器不够。第4版系统的176美元亏损证明:预测准确≠交易盈利。
强化学习部分采用了PPO(近端策略优化,Proximal Policy Optimization),这是OpenAI在2017年提出的算法,因训练稳定性高而成为游戏AI和机器人控制的主流选择。
PPO的核心机制是"裁剪目标函数"(Clipped Objective):限制单次策略更新的幅度,防止模型因某次幸运的交易而激进改变行为,或因某次倒霉的交易而过度保守。这种"保守的贪婪"恰好对应交易中的仓位管理纪律。
奖励函数(Reward Function)的设计暴露了作者的工程背景——没有追求单次交易的利润最大化,而是优化夏普比率(Sharpe Ratio)与回撤的加权组合。这意味着系统被明确训练去"讨厌波动",而非"热爱盈利"。
训练数据切分也体现产品思维:2020-2023年数据用于训练xLSTM编码器,2024-2025年数据完全隔离,用于验证PPO策略的泛化能力。507美元利润、6.94夏普比率、0.98%最大回撤,全部来自这段"未来数据"。
作为参照,同期买入持有黄金(Buy & Hold)的夏普比率仅为1.2,最大回撤11.3%。
Half Kelly:从507美元到102万美元的杠杆魔术
原始回测的507美元利润基于最小交易单位,作者没有透露具体本金。但按凯利公式(Kelly Criterion)的"半凯利"(Half Kelly)仓位管理——即使用理论最优仓位的一半以控制风险——10万美元本金在同期可增值至102万美元。
凯利公式的核心变量是胜率与盈亏比。Amertume的48.6%入场胜率看似平庸,但盈亏比(平均盈利/平均亏损)经PPO优化后达到3.2:1。这意味着即使错的时候比对的稍多,期望收益仍为正。
Half Kelly的保守系数(0.5)将理论最大回撤从凯利最优的约4%压低至0.98%,同时将年化收益从理论极限的约200%降至实际可实现的约110%。这是工程师对"存活优先"原则的数学表达。
作者公开了关键超参数:xLSTM编码器使用4层堆叠,隐藏维度256,15分钟数据窗口对应96个时间步(24小时);PPO的裁剪系数ε=0.2,学习率3e-4,每批次2048个时间步。这些数字未经调优,作者直言"还有大量实验空间"。
项目代码已开源,但作者附加了免责声明:回测表现不代表未来收益,自营交易公司的考核环境与真实市场存在结构性差异。
一个有趣的细节是命名——Amertume在法语中同时指"苦涩"与"啤酒花的苦味"。作者在第4版的亏损后一度考虑放弃,第6B版的突破发生在某个深夜的调试 session。这种命名方式暗示了项目的中途状态:足够好以继续,不够好以自满。
如果97%的失败率是准确的,这个系统的下一步测试是什么——是通过更多自营公司的考核,还是直接在真实账户中验证?作者没有给出时间表,但留下了监控接口的日志截图:最后一笔交易发生在2025年3月,持仓方向为空,浮动盈利+12美元。
热门跟贴