ChatGPT、Claude、Gemini——这些你天天用的模型,底层跑着一个微积分课本里的泰勒级数。没人告诉你这件事,因为说出来就不酷了。

Softmax函数,就是那个把 logits 变成概率分布的老熟人,本质上是个伪装成"简单操作"的无穷级数。开发者们把它当黑盒用了八年,直到有人把证明拍在桌上。

作者的原话很直接:「我想给你看点东西,它就藏在眼皮底下好几年。」这种"公开的秘密"在AI圈不算新鲜。就像你手机里的计算器,没人关心它怎么算 sin(x),能用就行。

但区别是,计算器不会告诉你"我是用泰勒展开的"。而 Softmax 连这层提示都没有——它被包装成一个"指数归一化"的简洁概念,让一代工程师误以为自己在处理离散概率,实际上是在跟无穷级数打交道。

这个发现对训练有影响吗?短期内没有。但有个细节很有意思:当你在用 FP16 精度跑大模型时,Softmax 的级数截断误差会被放大,而大多数框架的优化手册里,根本不提这茬。用户以为的"精度问题",有时候只是数学课本第7页的内容没读完。