1992年,IBM Yorktown Heights实验室的五名研究员,用12页纸解决了一个看似无聊的问题:怎么把英语单词自动归类。没人想到,这篇论文后来成了自然语言处理(NLP)的标准工具,更没人想到,其中两人会带着这套算法走进华尔街,打造出人类历史上最赚钱的对冲基金

一篇论文的两条命运线

这篇名为《基于类别的N元语法自然语言模型》的论文,发表在1992年12月的《Computational Linguistics》第18卷第4期。作者名单:Peter F. Brown、Vincent J. Della Pietra、Peter V. deSouza、Jenifer C. Lai、Robert L. Mercer。

算法的核心思路很朴素:不是预测下一个词是什么,而是预测下一个词属于哪个"类别"。比如"猫"和"狗"可能共享同一个类别标签,这样即使训练数据里没见过"猫坐在垫子上",也能从"狗坐在垫子上"推断出合理性。这种"聚类+预测"的架构,后来成了word2vec的概念祖先——只是后者把类别换成了连续的向量空间。

论文发表后的15年里,这套方法几乎是NLP的特征工程标配。但教科书提到它时,通常一笔带过,仿佛只是通往神经网络的垫脚石。

IBM到华尔街:同一批人,同一套数学

Brown和Mercer没有留在学术界。他们离开IBM后,把这套统计机器学习的框架搬到了完全陌生的战场:金融市场。

语言模型预测下一个词,和预测下一分钟股价,数学底层惊人地相似——都是从不完整的信号里提取模式,都是在噪声中找相关性。他们把NLP里的"词类"换成"市场状态",把"句子概率"换成"价格走势概率",搭建了一套完全数据驱动的交易系统。

这家公司后来叫Renaissance Technologies。它的旗舰基金Medallion,从1988年到2018年的年均回报率达到66%(费前),管理规模巅峰时超过1000亿美元。创始人Simons是数学家,但让这台印钞机运转的核心引擎,正是那批IBM研究员带出来的统计学习血统。

为什么学术圈"错过"了这笔财富

为什么学术圈"错过"了这笔财富

一个有趣的反差:同一篇论文,在NLP领域是"被跳过的脚注",在华尔街却是"被加密的核武器"。

学术圈的激励机制是公开发表、被引用、建立理论谱系。Brown等人的论文确实被引用了——但主要是作为"早期工作",证明神经网络之前也有人做过聚类。而Mercer和Brown选择把算法锁进黑箱,用复利代替影响因子。

更深层的原因是问题设定。学术界关心的是"模型是否优雅、是否可解释",华尔街只关心"是否赚钱、是否稳定"。当LSTM和Transformer后来取代n-gram模型时,Renaissance的交易系统早就不依赖那套具体实现了——但他们从IBM带走的统计思维,至今仍是行业的底层操作系统。

这篇论文现在还能在ACL Anthology上免费下载。12页,PDF大小不到1MB。读它的人大多是为了写文献综述,很少有人注意到作者栏里藏着两个改变金融史的名字。

如果1992年那间实验室里的某个人,当时决定把这套方法开源成软件包,而不是写成论文——历史会怎么分叉?