来源:市场资讯

(来源:图灵人工智能)

转自知识分子,仅用于学术分享,如有侵权留言删除
打开网易新闻 查看精彩图片
转自知识分子,仅用于学术分享,如有侵权留言删除

大模型的数学基础

The Mathematics Behind Large Language Models

从线性代数到信息论——驱动现代AI的核心数学体系

打开网易新闻 查看精彩图片

前言:为什么数学是理解AI的钥匙

大语言模型(LLM)在外部呈现为一个能够对话、写作、推理的智能系统。但剥开这层外壳,从工程实现的角度看,它的内部完全由数学构成:向量表示、矩阵变换、非线性激活、概率归一化、梯度更新,以及在大规模数据上的持续优化。这里没有神秘的「理解」,没有隐藏的意识,只有精心设计的数学结构,在极其大量的数据上反复迭代优化之后,涌现出了令人惊叹的能力。

理解这些数学,不只是满足求知欲。它能帮助我们更准确地判断 AI 的能力边界,理解它为什么在某些任务上表现惊人、在另一些任务上却会出现明显错误,也能帮助我们看清未来改进最可能发生在哪些层面:是表示、是训练、是对齐,还是知识接入方式。

本文涵盖六个核心数学领域,按照它们在模型中的作用顺序展开:线性代数、微积分与优化、概率论与统计、信息论、万能逼近定理,以及数值计算。每个部分都会说明:这个数学在大模型的哪个环节起作用,它解决了什么问题。

第一章:线性代数——大模型的骨架

如果只能选一门数学作为理解大模型的基础,那一定是线性代数。大模型中几乎所有的核心操作——词的表示、信息的传递、注意力的计算——都是线性代数运算。

1.1 向量:语义的容器

大模型处理的最基本单位是词(或子词,subword)。每一个词在进入模型之前,首先被转化为一个高维向量——一个由几百到几千个浮点数构成的数组。

维度

这个向量不是人工设计的,而是模型在训练过程中自动学习到的。学习的结果极其有趣:语义相近的词,它们的向量在高维空间中彼此靠近;语义相关的词之间,向量的差值会呈现出近似稳定的方向结构。经典例子是:

国王男人女人女王

这说明向量空间并不只是一个“存词典”的仓库,而是可以被运算操控的语义方向的可以承载语义关系的几何空间。「性别」被编码为向量空间中某个固定的偏移方向,加减法在语义层面是有意义的。

不过,对现代大模型而言,这还只是起点。真正参与后续计算的,并不是固定不变的静态词向量,而是经过多层注意力与非线性变换后不断更新的上下文化表示。也就是说,同一个词在不同语境中,最终得到的内部表示是会变化的。

核心概念:词嵌入(Word Embedding)把离散的词符号映射到连续的高维向量空间的过程。现代大模型使用的嵌入维度通常在 512 到 16384 之间。维度越高,能表达的语义关系越丰富,但计算量也随之增大。

1.2 矩阵乘法:信息的流动

神经网络的每一层,本质上都是一次矩阵乘法加上一个非线性变换:

输出

其中 是权重矩阵, 是输入向量, 是偏置向量, 是激活函数。 的每一行可以理解为一个「探测器」——它在测量输入向量在某个方向上的投影有多强。整个矩阵乘法,是同时用成百上千个探测器扫描输入,提取不同维度的特征。

GPU 之所以是训练大模型的必要硬件,正是因为 GPU 的架构天然为大规模并行矩阵乘法设计。一块高端 GPU 每秒可以执行数百万亿次浮点运算(TFLOPS),而这些运算绝大多数都是矩阵乘法。

1.3 奇异值分解(SVD):理解矩阵的本质

任何矩阵 都可以进行奇异值分解:

这个公式揭示了矩阵作为线性变换的几何本质: 先把输入旋转到最优方向, 按不同方向的重要性拉伸, 再做一次旋转。

对角线上的奇异值从大到小排列,代表每个方向上的「信息量」。小奇异值对应的方向,对整体变换的贡献往往较小。这种“很多有效信息集中在少数方向上”的直觉,启发了大模型微调中的低秩方法。

LoRA(低秩适配,Low-Rank Adaptation):微调大模型时,不更新全部权重矩阵,而是假设更新量 是低秩的,用 SVD 的思想将其分解为两个小矩阵之积 (低秩形式),只训练这两个小矩阵。这使得微调参数量降低到原来的 0.1%–1%,而性能损失极小。始就把更新参数化为低秩结构。
LoRA 的核心假设是:对大模型而言,很多任务适配所需要的有效更新,实际上落在一个较低维的子空间里。这个想法与矩阵低秩近似在直觉上是相通的,但训练时并不是先对完整更新做一次 SVD,再只保留其中一部分,而是从一开始就把更新参数化为低秩结构。

SVD 的另一个重要应用是压缩:保留前 k 个最大奇异值,丢弃其余,可以用更少的参数近似原矩阵。这是模型压缩和加速的重要手段之一。

1.4 注意力机制:线性代数的综合运用

Transformer 架构的核心是自注意力机制(Self-Attention),其数学形式是:

这个公式是线性代数的综合运用:、、 都是矩阵,每一行对应序列中一个词的向量表示。 计算每个词对其他所有词的相关程度,除以 防止点积数值过大,softmax 把权重归一化为概率分布,最后乘以 对所有词的表示做加权求和。

注意力机制的几何意义是:每个词的向量表示,会根据上下文中其他词的信息动态调整。「苹果公司」中的「苹果」和「吃苹果」中的「苹果」,经过注意力运算后得到的向量是不同的。

线性代数在大模型中的角色总结

词嵌入(向量表示语义) -> 前向传播(矩阵乘法传递信息) -> 注意力计算(矩阵乘法捕捉上下文关系) -> LoRA微调(SVD低秩分解节省参数) -> 模型压缩(奇异值截断)

第二章:微积分与优化——模型是如何学习的

向量和矩阵定义了模型的结构,但如何让模型变得「聪明」?答案是优化——通过微积分,让模型在数据上反复调整参数,朝着「犯错越来越少」的方向改进。

2.1 损失函数:量化「错误」

学习的前提是能够度量「有多错」。损失函数(Loss Function)把模型的预测和真实答案之间的差距,转化为一个标量数值。

大语言模型训练时最常用的是交叉熵损失(Cross-Entropy Loss):

其中 是真实标签(下一个词是什么), 是模型预测的概率。如果模型对正确答案的预测概率越高,损失越小;预测越不自信,损失越大。训练的目标就是在整个训练数据集上最小化这个损失值。

2.2 梯度:最陡下降的方向

损失函数是关于所有模型参数的函数。对每个参数求偏导数,就得到了梯度——它指向损失函数增长最快的方向。沿着梯度的反方向走,损失就会减小。梯度下降的更新规则:

其中 是参数, 是学习率(步长)。学习率是训练中最重要的超参数之一:太大会导致训练不稳定,太小会让训练极其缓慢。

2.3 反向传播:梯度的高效计算

大模型有数百亿参数。如果对每个参数单独计算梯度,计算量会是天文数字。反向传播(Backpropagation)利用链式法则,从损失函数出发,由后向前逐层传递梯度,使得计算量与前向传播相当。链式法则的形式:

如果 L 是关于 y 的函数,y 是关于 x 的函数,那么:

在神经网络中,每一层的梯度可以由下一层的梯度和本层的局部导数相乘得到,从而实现高效的逐层传播。反向传播是深度学习能够扩展到如此大规模的根本原因之一。

2.4 Adam 优化器:现代训练的标配

纯粹的梯度下降在深度学习中效果不佳。现代大模型训练几乎都使用 Adam(Adaptive Moment Estimation)优化器,它结合了两个关键改进:

  • 动量(Momentum):记录历史梯度的指数加权平均,让更新方向更平滑,避免在陡峭方向反复震荡。

  • 自适应学习率:对每个参数单独估计合适的学习率。梯度历史上变化大的参数,学习率自动降低;变化小的参数,学习率自动提升。

  • 这使得 Adam 对学习率的初始设置不那么敏感,训练过程更加稳定。

2.5 激活函数:打破线性的关键

前面提到,神经网络的每层是矩阵乘法加上激活函数。如果没有激活函数,无论叠多少层,整个网络都等价于一个线性变换,表达能力极为有限。激活函数引入非线性,让网络能够逼近任意复杂的函数(这正是万能逼近定理的前提)。现代大模型常用的激活函数是 GELU(Gaussian Error Linear Unit):

其中 是标准正态分布的累积分布函数。GELU 比早期的 ReLU 更平滑,在 Transformer 中表现更好。

训练流程总结:前向传播(输入→预测)→ 计算交叉熵损失 → 反向传播(链式法则计算所有参数的梯度)→ Adam 更新参数 → 循环直到收敛。

第三章:概率论与统计——不确定性的语言

大语言模型的本质是一个概率模型:给定前面的所有词,预测下一个词的概率分布。理解这个概率分布,是理解大模型行为的核心。

3.1 语言模型的概率基础

一个语言模型本质上是在建模条件概率:

即:已知前面所有词的情况下,下一个词是 的概率是多少。生成文本时,模型反复采样这个分布。先预测第一个词的概率分布,采样一个词;再用这个词作为上下文,预测第二个词;以此类推。

这解释了为什么模型生成的文本不总是相同的:采样过程本身是随机的(除非把「温度」参数设为 0,此时始终选概率最大的词)。

3.2 Softmax:把任意数值变成概率

模型的最后一层输出的是 logits——对词表中每个词的「原始评分」,可以是任意实数。Softmax 函数把这些原始评分转化为合法的概率分布(所有概率为正,且加和为1):

温度参数 控制分布的「平坦程度」:

:分布极度集中,输出更确定但缺乏多样性。:分布更平坦,输出更有创意但可能更不连贯。

3.3 贝叶斯推断:先验知识的融合

贝叶斯定理:

在大模型的训练和微调过程中,贝叶斯思想无处不在。预训练相当于建立了一个强大的先验(模型对语言的基础认知);微调(Fine-tuning)相当于用新数据更新这个先验,使其向特定任务的后验分布靠拢。RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback) 中人类标注者的偏好判断,可以理解为一种奖励信号,引导模型的概率分布向更符合人类期望的方向偏移。

3.4 正态分布与参数初始化

训练开始时,模型参数需要初始化。如果所有参数初始化为零,所有神经元会产生相同的梯度,对称性无法被打破,网络永远学不到有用的特征。

标准做法是从正态分布(高斯分布)中随机初始化参数:

其中方差 通常根据层的输入维度精心设计(如 Xavier 初始化、He 初始化),目的是保持信号在前向传播和反向传播中的方差大致稳定,避免梯度消失或爆炸。

3.5 贝叶斯视角:一种理解微调的方式

严格来说,现代大模型的预训练和微调并不是直接按标准贝叶斯推断公式来实现的;它们主要还是通过大规模梯度优化完成的。但从思想上看,贝叶斯视角仍然提供了一种很有启发性的理解方式。

预训练阶段,模型在海量语料上形成了对语言结构、世界知识和表达模式的广泛统计偏好;微调阶段,则是在这些已有偏好的基础上,根据更具体的数据分布进一步调整参数。用一种宽松的说法,可以把这理解为:预训练提供了某种“先验结构”,而微调则让模型根据新任务的数据对这种结构进行更新。

这种表述更像是一种解释框架,而不是对训练过程的严格数学还原。它的价值在于帮助我们理解:为什么一个已经预训练得很充分的模型,只需要相对少量的高质量数据,就可能在特定任务上表现出显著变化。

第四章:信息论——度量知识与不确定性

信息论由 Claude Shannon 在 1948 年创立,最初用于研究通信系统中的信息传输效率。在大模型中,信息论提供了度量「信息量」「不确定性」和「压缩极限」的数学框架。

4.1 熵:不确定性的度量

香农熵(Shannon Entropy)度量一个概率分布的不确定程度:

熵越高,分布越均匀,不确定性越大;熵越低,分布越集中,结果越可预测。一枚公平硬币的熵是1比特(两种等概率结果);一枚永远正面朝上的硬币的熵是0(无不确定性)。

在大模型中,每次预测下一个词时,输出的概率分布的熵,反映了模型对下一个词的确信程度。熵低意味着模型「知道」接下来该说什么;熵高意味着模型处于迷惑状态。

4.2 交叉熵:训练损失的信息论基础

交叉熵(Cross-Entropy)度量用一个分布 来编码实际分布 时的「效率损失」:

这正是大模型训练时使用的损失函数。 是真实分布(正确答案), 是模型预测的分布。最小化交叉熵,等价于让模型预测的分布尽可能接近真实分布。

交叉熵与 KL 散度的关系:

因为真实分布的熵 是固定的,最小化交叉熵等价于最小化 KL 散度

——即让模型分布尽可能接近真实分布。

4.3 KL 散度:分布之间的距离

KL 散度(Kullback-Leibler Divergence)度量两个概率分布的「差异程度」:

KL 散度不对称————因此它不是真正的「距离」,但在优化中极其有用。在大模型的 RLHF 训练中,为了防止模型被强化学习「优化过头」,通常在目标函数中加入 KL 惩罚项:

目标奖励

其中 是原始预训练模型, 是惩罚系数,确保调整后的模型不会偏离原始模型太远。

4.4 困惑度:语言模型的评估指标

困惑度(Perplexity)是评估语言模型质量的标准指标,定义为交叉熵损失的指数:

困惑度的直观含义是:模型平均有多「困惑」——如果困惑度为10,相当于模型在每个位置面对10个等可能的候选词。困惑度越低,说明模型对语言的建模越精准。GPT-2在维基百科测试集上的困惑度约为18,GPT-4则低得多。

第五章:万能逼近定理——为什么神经网络能做到这一切

前面四章分别介绍了支撑大模型运转的四类数学工具。但有一个更根本的问题:为什么这些数学结构组合在一起,能够产生如此强大的能力?答案的核心是万能逼近定理(Universal Approximation Theorem)。

5.1 定理的内容

1989 年由 George Cybenko 证明的万能逼近定理,标准形式为:

对于任意连续函数 和任意精度 ,存在一个足够宽的单隐藏层神经网络 ,使得对所有输入 都满足 。

用白话说:只要神经元足够多,一个单隐藏层的神经网络可以逼近任意的连续函数,想要多精确就有多精确。

5.2 公式的解剖

公式中的每个符号,都对应着前面讨论过的数学概念:

  • :向量点积(线性代数),测量输入 在方向 上的投影——即这个神经元「关注」输入的哪个方向。

  • :激活函数(微积分),引入非线性。没有它,无论多少神经元叠加,都只能表达线性函数。

  • :加权求和,把所有神经元的激活值组合成最终输出。

整个公式可以理解为:用 个「局部特征探测器」对输入进行扫描,每个探测器捕捉输入空间的一个局部特征,最后加权投票得出结论。

5.3 从定理到 Transformer

万能逼近定理证明了单层网络的理论能力,但实践中深层网络更高效:相同的表达能力,深层网络需要的神经元数量远少于浅层宽网络,意味着更少的参数和更好的泛化能力。

Transformer 通过注意力机制解决了普通深层网络在处理序列时的关键难题——长距离依赖:一个句子开头的词可以直接影响末尾的词的表示,无需通过中间所有层逐步传递。

万能逼近定理保证了「这个框架有能力做到」,大规模的数据和计算则保证了「这个能力被充分发掘」。两者缺一不可。

万能逼近定理回答了“能不能表示”,但并没有回答“能不能高效训练”“是否需要现实可行的参数规模”“在有限数据下是否具有良好泛化”这些更关键的问题。

实践中,深层网络通常比浅层宽网络更高效:在很多任务上,相近的表达能力可以用更少、更有结构的参数来实现。Transformer 的重要性也不在于它“满足了万能逼近定理”,而在于它提供了一种特别适合处理序列数据的结构,使得长距离依赖可以被直接建模,一个句子前部的词能够有效影响后部词的表示,而不必经过冗长的逐步传递。

因此,万能逼近定理更像是一种下限保证:它说明神经网络这套框架原则上足够强大;而真正决定现代大模型成功的,则是架构设计、优化算法、训练数据、硬件能力与工程实现的共同作用。

第六章:数值计算——让数学在现实中运行

纯数学是精确的,但计算机上的数学是近似的——浮点数有精度限制,运算有舍入误差。在大模型的训练和推理中,数值计算的选择直接影响效率、稳定性和成本。

6.1 浮点数精度

标准浮点数格式(IEEE 754)有几种精度:FP64(双精度,64位)、FP32(单精度,32位)、FP16(半精度,16位)、BF16(Brain Float 16)。

大模型训练通常使用「混合精度训练」:前向传播和反向传播用 FP16(节省显存、加速计算),梯度累积和参数更新用 FP32(保持精度防止溢出)。推理时通常用 FP16 或量化后的 INT8/INT4,大幅节省显存和提升速度。

6.2 层归一化:让训练稳定的关键

在深层网络中,每层的输入分布会随着训练不断变化(称为内部协变量偏移),导致训练不稳定。Layer Normalization 在每一层的输出上做标准化:

其中 和 是当前层激活值的均值和方差,、 是可学习参数, 是防止除零的小常数。归一化把每层的激活值拉回均值为 0、方差为 1 的分布附近,使梯度流动更稳定,允许使用更大的学习率。

Transformer 中的 LayerNorm是让深达百层的网络能够稳定训练的关键技术之一。

6.3 位置编码:让 Transformer 感知顺序

注意力机制本身是「无序的」——它不感知词的位置。原始 Transformer 使用正弦/余弦函数的位置编码:

许多现代大模型,包括 LLaMA 系列在内,都广泛使用 RoPE(Rotary Positional Embedding,旋转位置编码)或其变体。它的好处在于:位置不再只是简单加到向量上的一个附加标签,而是通过旋转方式融入表示空间,使模型更自然地处理相对位置信息,并在长序列场景下表现出较好的扩展性。

综合视图:六门数学的协同---一次完整的前向传播

当你输入一句话给大模型时,这六门数学如何协同工作:

词嵌入(线性代数):输入的每个词被查表转化为高维向量,加上位置编码(数值计算),形成初始张量。

注意力层(线性代数 + 概率论):通过 、、 矩阵变换和点积注意力,每个词收集上下文信息,动态更新自己的向量表示。Softmax(概率论)确保注意力权重是合法的概率分布。

前馈层(万能逼近):两层全连接网络加激活函数(微积分),对每个位置单独做非线性变换,增加表达能力。

层归一化(数值计算):每个子层之后做归一化,保持训练稳定。

输出与采样(信息论 + 概率论):最后一层的向量经过线性投影,得到词表上的 logits;Softmax 转化为概率分布;根据温度参数采样,输出下一个词。

损失计算与反向传播(微积分 + 信息论):训练时,交叉熵损失量化预测与真实答案的差距,反向传播计算所有参数的梯度,Adam 更新参数。

六门数学与其在大模型中的核心作用

线性代数:词的表示(向量/张量)、信息传递(矩阵乘法)、注意力计算(QKV)、参数分析(SVD/LoRA) | 微积分与优化:损失函数设计、梯度计算、反向传播、Adam优化器、激活函数非线性 | 概率论与统计:语言模型的概率本质、Softmax、温度采样、参数初始化、贝叶斯微调 | 信息论:交叉熵训练损失、KL散度对齐约束(RLHF)、困惑度评估指标、熵与不确定性 | 万能逼近定理:神经网络表达能力的理论保证,解释了为什么这个框架能逼近任意函数 | 数值计算:混合精度训练、层归一化、位置编码,让数学在真实硬件上高效稳定地运行

数学领域

核心作用

线性代数

词的表示(向量/张量)、信息传递(矩阵乘法)、注意力计算(QKV)、LoRA(SVD低秩分解)

微积分与优化

损失函数、梯度计算、反向传播、Adam优化器、激活函数非线性

概率论与统计

语言模型的概率本质、Softmax、温度采样、参数初始化、贝叶斯微调

信息论

交叉熵训练损失、KL散度对齐约束(RLHF)、困惑度评估、熵与不确定性

万能逼近定理

神经网络表达能力的理论保证,解释了为什么这个框架能逼近任意函数

数值计算

混合精度训练、层归一化、位置编码,让数学在真实硬件上高效稳定地运行

结语:数学不是障碍,是地图

大模型的能力令人惊叹,但它的运作原理并不神秘。本文讨论的这些数学——向量空间、矩阵分解、梯度下降、概率分布、信息熵——都是有清晰直觉的工具,每一个都有具体的任务要完成,都有可以理解的几何或概率含义。

理解这些数学带来的最大收益,不是能够自己实现一个大模型,而是建立起一幅更清晰的地图:知道模型输出为什么本质上是概率分布而不是“真理读取”,知道参数规模、数据规模与优化过程为什么会共同塑造能力边界,也知道所谓“幻觉”往往并不是某一个单独零件坏了,而可能与训练分布、采样策略、知识缺口、检索缺失或对齐目标等多种因素有关。知道为什么增加模型规模会带来「涌现能力」,知道 LoRA 为什么能用少量参数达到接近全量微调的效果,知道 RAG 为什么是应对知识截止问题的合理工程方案。这样的理解,不能让我们一眼看穿所有问题,但能让我们比“把 AI 当魔法”更接近真实。

这幅地图,并不能替代工程实践,却能成为 AI 时代做出判断的基础:你会知道哪些能力来自统计规律,哪些能力依赖结构设计,哪些问题属于理论限制,哪些问题则只是工程上尚未解决。

这幅地图,是在 AI 时代做出有价值判断的基础。