Reddit上有一份114页的机器学习数学速查表,两天内攒了138个赞。作者是个备考的学生,把线性回归、决策树、K-means、强化学习、CNN、RNN、Transformer、自注意力机制这些课程的标配内容,全部用统一符号和形状标注整理了一遍。工整,全面,对面试复习确实有用。

但一个正在跑LLM项目的工程师,真正会翻回去看的只有形状参考表那一节。不是公式不重要,是大部分内容被封装进了.fit()、.compile()和import后面,成了黑箱。问题变成:哪些数学还值得花时间手推?

打开网易新闻 查看精彩图片

2026年还在一线做应用AI的团队,答案出奇一致。114页里只有三个公式是高频显式出现的,另有一块曾经的重点已经进了博物馆。

打开网易新闻 查看精彩图片

第一是链式法则在反向传播里的应用:∂L/∂w = ∂L/∂y · ∂y/∂z · ∂z/∂w。

自动微分帮你算,但工程师得读懂结果。梯度消失、梯度爆炸、激活函数饱和——这些都不会直接写在损失曲线上。能在脑子里把梯度倒着追过一层,才能定位问题。混合精度溢出、梯度裁剪阈值、tanh还是gelu的选择,底层都是这个。课程里最难的部分,成了日常最频繁调用的直觉。

第二是softmax加交叉熵的梯度:∂L/∂z = ŷ − y。

整个速查表里最简洁的导数,却决定分类器是收敛还是震荡。自动微分做了代数替换,但损失函数是工程师自己选的。标签平滑、温度缩放、focal loss、二分类交叉熵还是多分类交叉熵——每个都是在这个恒等式上做微小扰动。能手推两行的工程师,调试异常损失只要两分钟。

打开网易新闻 查看精彩图片

第三是缩放点积注意力:softmax(QK^T / √d_k) · V。

从最小的开源基座模型到最新的前沿版本,每个Transformer架构都在 tight loop 里跑这个。它的维度代数直接决定KV缓存占用、多头切分宽度、分组查询布局、RoPE编码方式。不是背下来就行,是要能对着具体模型的hidden size和head count,心算出内存瓶颈在哪。

那什么进了博物馆?RNN、GRU、LSTM那一整节。课程还在教,面试偶尔考,但新模型架构里已经找不到了。速查表上的52页深度学习内容,有相当比例属于"知道存在过"即可。

这不是说数学不重要。是说要学对数学——能帮你读通错误信号、选对损失变体、算清内存约束的那部分。剩下的,知道去哪查就够了。