他让AI炒黄金：10万本金变102万，回撤不到1%|交易|复杂度|夏普|算法|编码器|黄金

一个交易机器人在首次回测中亏了176美元。不是代码bug，不是数据错误——算法完全按设计运行，只是它学不会何时离场。

入场准确率48.6%，持仓平均27根K线，然后就开始"恐慌"：盈利单跑得比兔子还快，亏损单抱得比初恋还紧。这本是台没有情绪的机器，却完美复刻了人类最糟糕的交易本能。

这是第4次实验。两次迭代后，同一套系统在2024-2025年完全未见过的数据上盈利507美元，夏普比率6.94，最大回撤0.98%。按凯利公式（Kelly Criterion）优化仓位，10万美元本金同期可增值至102万美元。

作者把这个项目命名为Amertume——法语"苦涩"之意。苦尽甘来。

从97%失败率里找活路

作者的身份很说明问题：他不是交易员，是产品经理出身的AI工程师。选择做交易机器人，纯粹因为"通过自营交易公司考核"是测试深度学习+强化学习融合的理想场景。

规则简单粗暴：盈利10%，回撤控制在5%以内。但难度在于背景数据——97%的交易者在这类考核中失败。

设计目标因此清晰：在波动中存活，而不是在波动中暴富。

Amertume之前，作者试过所有主流方案：

纯技术指标（RSI、MACD、布林带）：滞后性严重，金叉死叉在震荡市反复打脸

传统机器学习（XGBoost、随机森林）：遇到训练集外的市场 regime 就失效，树模型的"外推天花板"在金融市场是致命的

标准LSTM：能记住序列，但处理不了长程依赖和特征间关系

Transformer：理论上完美，自注意力机制的二次计算复杂度让实时交易变成不可能任务

所有方案共享一个核心困境：1分钟数据噪声太高，15分钟数据又可能错过关键转折。作者在前4版编码器（Encoder v1-v4）上撞了南墙——1分钟OHLCV数据训练出的模型，验证集准确率最高才41%，损失函数（Loss）在0.68-0.72区间死磕不动。

切换到15分钟数据是第5版编码器的转折点。准确率跃升至67%，损失降至0.42。噪声过滤与信号保留的权衡，最终偏向了后者。

xLSTM：LSTM发明者2024年的"补丁包"

核心问题始终没变：机器人需要判断"这是该追的突破，还是该忽略的噪音"。

解决方案选用了xLSTM——2024年由Sepp Hochreiter（1997年原始LSTM的发明者）推出的升级版。关键创新在于双内存架构：

sLSTM（标量内存）：用指数门控机制追踪单一数值的时间演化，类似人类对"当前价格相对历史高低"的直觉

mLSTM（矩阵内存）：存储多特征间的协变关系，比如"黄金与美元指数的负相关性在非农数据发布时是否失效"

这种设计让xLSTM在保持线性计算复杂度的同时，获得了接近Transformer的特征关联能力。对于需要毫秒级响应的交易系统，这是工程上的必要妥协。

作者对比了xLSTM与替代方案的底层差异：

树模型（XGBoost/随机森林）的致命伤在于外推机制——当测试数据落在训练分布之外，模型只能返回最近叶节点的平均值。金融市场的regime切换和前所未有的波动，恰好是"分布外"的高频事件。

Transformer解决了外推问题，但自注意力的二次复杂度（O(n²)）意味着序列长度增加时，计算量呈指数爆炸。一篇研究论文的测算显示，处理典型交易时间窗口，Transformer的延迟是xLSTM的17-43倍。

xLSTM的取舍很产品经理思维：放弃完美的全局注意力，换取可接受的局部记忆与实时性能。

PPO：让机器人学会"止损"的奖惩机制

仅有好的特征提取器不够。第4版系统的176美元亏损证明：预测准确≠交易盈利。

强化学习部分采用了PPO（近端策略优化，Proximal Policy Optimization），这是OpenAI在2017年提出的算法，因训练稳定性高而成为游戏AI和机器人控制的主流选择。

PPO的核心机制是"裁剪目标函数"（Clipped Objective）：限制单次策略更新的幅度，防止模型因某次幸运的交易而激进改变行为，或因某次倒霉的交易而过度保守。这种"保守的贪婪"恰好对应交易中的仓位管理纪律。

奖励函数（Reward Function）的设计暴露了作者的工程背景——没有追求单次交易的利润最大化，而是优化夏普比率（Sharpe Ratio）与回撤的加权组合。这意味着系统被明确训练去"讨厌波动"，而非"热爱盈利"。

训练数据切分也体现产品思维：2020-2023年数据用于训练xLSTM编码器，2024-2025年数据完全隔离，用于验证PPO策略的泛化能力。507美元利润、6.94夏普比率、0.98%最大回撤，全部来自这段"未来数据"。

作为参照，同期买入持有黄金（Buy & Hold）的夏普比率仅为1.2，最大回撤11.3%。

Half Kelly：从507美元到102万美元的杠杆魔术

原始回测的507美元利润基于最小交易单位，作者没有透露具体本金。但按凯利公式（Kelly Criterion）的"半凯利"（Half Kelly）仓位管理——即使用理论最优仓位的一半以控制风险——10万美元本金在同期可增值至102万美元。

凯利公式的核心变量是胜率与盈亏比。Amertume的48.6%入场胜率看似平庸，但盈亏比（平均盈利/平均亏损）经PPO优化后达到3.2:1。这意味着即使错的时候比对的稍多，期望收益仍为正。

Half Kelly的保守系数（0.5）将理论最大回撤从凯利最优的约4%压低至0.98%，同时将年化收益从理论极限的约200%降至实际可实现的约110%。这是工程师对"存活优先"原则的数学表达。

作者公开了关键超参数：xLSTM编码器使用4层堆叠，隐藏维度256，15分钟数据窗口对应96个时间步（24小时）；PPO的裁剪系数ε=0.2，学习率3e-4，每批次2048个时间步。这些数字未经调优，作者直言"还有大量实验空间"。

项目代码已开源，但作者附加了免责声明：回测表现不代表未来收益，自营交易公司的考核环境与真实市场存在结构性差异。

一个有趣的细节是命名——Amertume在法语中同时指"苦涩"与"啤酒花的苦味"。作者在第4版的亏损后一度考虑放弃，第6B版的突破发生在某个深夜的调试 session。这种命名方式暗示了项目的中途状态：足够好以继续，不够好以自满。

如果97%的失败率是准确的，这个系统的下一步测试是什么——是通过更多自营公司的考核，还是直接在真实账户中验证？作者没有给出时间表，但留下了监控接口的日志截图：最后一笔交易发生在2025年3月，持仓方向为空，浮动盈利+12美元。

他让AI炒黄金：10万本金变102万，回撤不到1%

从97%失败率里找活路

xLSTM：LSTM发明者2024年的"补丁包"

PPO：让机器人学会"止损"的奖惩机制

Half Kelly：从507美元到102万美元的杠杆魔术

热搜

热门跟贴

从97%失败率里找活路

xLSTM：LSTM发明者2024年的"补丁包"

PPO：让机器人学会"止损"的奖惩机制

Half Kelly：从507美元到102万美元的杠杆魔术

热搜

热门跟贴

相关推荐

30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展

Anthropic出手！AI的内心独白，曝光了

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

独家对话灵御智能：百万小时真机数据，喂出具身智能的“云端大脑”

领先于Transformer！首个1200万上下文模型SubQ，成本仅Opus的5%

Anthropic最危险路线图曝光: 无限记忆、多智能体! AI终局战仅剩双雄决顶

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

00后小哥复刻Claude最强神话模型OpenMythos

一架超大黄金加特林机枪，在当铺能卖多少钱？

野外捡的狗头金，明明不是纯金，为何却能卖到天价？

这波交易值了

兔子探测黄金

尴尬的黄金（下）

号称1200万token上下文的模型来了，数据亮眼但疑点重重

全网最火五金店！能把五金店做成网红店，看看他到底有啥特别之处

尴尬的黄金（上）

孙子兵道：一将难求与将才矩阵

黄金倒厕所了还不打，冲走一点不冤，孩子身上看到了父母的影子

老头捡到价值百亿的黄金，不料却被纳粹士兵给盯上

天赋碾压乔丹？未打一场大学赛，从高中直升NBA，三年兑现传奇