Softmax藏了8年的数学马甲，AI公司集体装没看见

码上闲叙

2026-04-13 16:56 ·北京

ChatGPT、Claude、Gemini——这些你天天用的模型，底层跑着一个微积分课本里的泰勒级数。没人告诉你这件事，因为说出来就不酷了。

Softmax函数，就是那个把 logits 变成概率分布的老熟人，本质上是个伪装成"简单操作"的无穷级数。开发者们把它当黑盒用了八年，直到有人把证明拍在桌上。

作者的原话很直接：「我想给你看点东西，它就藏在眼皮底下好几年。」这种"公开的秘密"在AI圈不算新鲜。就像你手机里的计算器，没人关心它怎么算 sin(x)，能用就行。

但区别是，计算器不会告诉你"我是用泰勒展开的"。而 Softmax 连这层提示都没有——它被包装成一个"指数归一化"的简洁概念，让一代工程师误以为自己在处理离散概率，实际上是在跟无穷级数打交道。

这个发现对训练有影响吗？短期内没有。但有个细节很有意思：当你在用 FP16 精度跑大模型时，Softmax 的级数截断误差会被放大，而大多数框架的优化手册里，根本不提这茬。用户以为的"精度问题"，有时候只是数学课本第7页的内容没读完。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴