114页机器学习公式，工程师真正用的不到3个|代数|工程师|微分|数学|新论文

Reddit上有一份114页的机器学习数学速查表，两天内攒了138个赞。作者是个备考的学生，把线性回归、决策树、K-means、强化学习、CNN、RNN、Transformer、自注意力机制这些课程的标配内容，全部用统一符号和形状标注整理了一遍。工整，全面，对面试复习确实有用。

但一个正在跑LLM项目的工程师，真正会翻回去看的只有形状参考表那一节。不是公式不重要，是大部分内容被封装进了.fit()、.compile()和import后面，成了黑箱。问题变成：哪些数学还值得花时间手推？

2026年还在一线做应用AI的团队，答案出奇一致。114页里只有三个公式是高频显式出现的，另有一块曾经的重点已经进了博物馆。

第一是链式法则在反向传播里的应用：∂L/∂w = ∂L/∂y · ∂y/∂z · ∂z/∂w。

自动微分帮你算，但工程师得读懂结果。梯度消失、梯度爆炸、激活函数饱和——这些都不会直接写在损失曲线上。能在脑子里把梯度倒着追过一层，才能定位问题。混合精度溢出、梯度裁剪阈值、tanh还是gelu的选择，底层都是这个。课程里最难的部分，成了日常最频繁调用的直觉。

第二是softmax加交叉熵的梯度：∂L/∂z = ŷ − y。

整个速查表里最简洁的导数，却决定分类器是收敛还是震荡。自动微分做了代数替换，但损失函数是工程师自己选的。标签平滑、温度缩放、focal loss、二分类交叉熵还是多分类交叉熵——每个都是在这个恒等式上做微小扰动。能手推两行的工程师，调试异常损失只要两分钟。

第三是缩放点积注意力：softmax(QK^T / √d_k) · V。

从最小的开源基座模型到最新的前沿版本，每个Transformer架构都在 tight loop 里跑这个。它的维度代数直接决定KV缓存占用、多头切分宽度、分组查询布局、RoPE编码方式。不是背下来就行，是要能对着具体模型的hidden size和head count，心算出内存瓶颈在哪。

那什么进了博物馆？RNN、GRU、LSTM那一整节。课程还在教，面试偶尔考，但新模型架构里已经找不到了。速查表上的52页深度学习内容，有相当比例属于"知道存在过"即可。

这不是说数学不重要。是说要学对数学——能帮你读通错误信号、选对损失变体、算清内存约束的那部分。剩下的，知道去哪查就够了。

114页机器学习公式，工程师真正用的不到3个