导语
从n-gram的统计预测到Transformer的注意力机制,从GPT的上下文学习到RLHF与GRPO对齐,再到AI Agent与Harness工程范式的兴起,大语言模型正在完成从“生成文本”到“理解世界并执行任务”的跃迁。本文系统梳理这一技术演进主线,揭示AI能力涌现背后的核心机制:信息如何被聚合、表示与调度,以及人类如何一步步从“提示模型”走向“驾驭系统”。
关键词:大语言模型、Transformer、注意力机制、预训练、上下文学习、RLHF、GRPO、涌现能力、Scaling Law、思维链、AI Agent、Harness工程、信息聚合、模型对齐
付雯欣丨整理
张江丨讲者
引言
2026年的春天,AI圈子的热词几乎在以周为单位更迭:Skills、MCP、OpenClaw、Harness、Hermes Agent……对AI感兴趣的所有人都狠狠体验了一把“学完你的学你的”。这股热潮,像极了2010年左右移动互联网初期的“App爆炸”。那时,每天都有无数个应用诞生,也有无数个应用迅速被人遗忘。
回头看,那场“App爆炸”最后留下了什么?表面上看,是微信、美团、抖音这些超级应用。但更深层的或许是:它重构了信息传递的方向和方式——从PC时代的“人找信息”,变成了移动互联网时代的“信息找人”(推送)和“人随人走”(社交媒体)。
那么,这场令人应接不暇的AI浪潮背后是什么?或许它在告诉我们,一个更本质的变化正在发生:AI正在从“预测”走向“行动”。 语言模型最初只是预测下一个词,现在它可以调用搜索引擎、执行代码、操控浏览器、根据反馈修正策略。
从被动的文本生成器,到主动的任务执行者,这背后是一整套架构的演变,北京师范大学系统科学学院教授、集智俱乐部创始人张江老师在《面向复杂系统的人工智能》课程第七讲中将其拆解为:Transformer让信息聚合变得动态灵活,GPT用预训练撬动了通用能力,RLHF让模型的行为与人类意图对齐,推理打开了“思考深度”这个新维度,而从Prompt到Harness的工程范式演进,则在重新定义人类如何驾驭这个日益强大的智能引擎。
下文将沿着这条完整的线索,解码大语言模型的技术内核与演变路径。
一、语言模型的五次跳跃:
从数词频到理解世界
语言模型的核心任务从未改变——给定前面的词,预测下一个词。用概率语言表达,就是建模条件概率分布:
整个句子的概率可以用链式法则展开:
四十年来,围绕如何得到这个条件概率,语言模型经历了五次质的跳跃,每一次突破背后都是底层范式的彻底切换。
第一阶段:统计语言模型(1990s-2006)。
其中最有名的n-gram模型假设当前词只依赖前n-1个词[1-3],将条件概率简化为:
其概率通过语料库中的频率统计进行估计:
如果紧跟在“我想吃”这个词后的词语中,“苹果”出现了200次,而“飞机”出现了3次,那模型就会预测“我想吃”的下一个词是“苹果”。这种方法简单、直观,在语音识别和机器翻译中被使用了近二十年。但它有一个致命问题,那就是维度爆炸。如果词表大小为V,n-gram模型需要存储Vn个条件概率。当V=50000,n=5时,这个数字会达到500005≈ 3×1023,这是一个非常大的数字,而且耗费如此大的精力去存储它未必能得到最好的结果。今天回看,这已是“古董级”技术,但它也让我们明白:语言模型的本质是概率预测。
第二阶段:词向量与神经语言模型(2003-2017)。学术界很快发现,词向量空间过大,且one-hot编码难以表示词语间的相似性,并提出使用词嵌入(word embedding)方法来解决n-gram的数据稀疏问题[4]。 2013年,Mikolov等人发表了著名的Word2Vec论文[5]。其核心思想是:把每个词映射到一个低维向量空间里,让语义相近的词在空间中靠近,如图1所示。每个词w被表示为一个d维向量,通过训练使得经常共同出现的词的向量余弦相似度更高:
图1:词向量空间中,语义相近的词距离更近
“国王-男人+女人≈王后”这个著名的例子,可以用向量运算表达为:
由于把词向量降到了低维连续空间,语义关系变成了可计算的几何关系。
Word2Vec论文的作者Mikolov还将LSTM首次大规模应用于统计语言模型,在语音识别任务上将困惑度大幅降低,超越了n-gram,并直接启发了后续的ELMo、GPT等模型[6]。
第三阶段:预训练语言模型(2018-2020)。2018年,Google发布BERT,OpenAI发布GPT-1。两者都基于Transformer架构,但走了不同的路:BERT用双向编码器做掩码语言建模(类似于“完形填空”),GPT用单向解码器做自回归生成(类似于“接龙”)。共同点是预训练-微调范式:先在海量无标注文本上学习通用知识,再在具体任务上微调。这实现了一个模型适配多领域任务,NLP领域几乎所有任务的最优成绩在一年内被全面刷新。
第四阶段:大语言模型爆发(2020-2024)。GPT-3(1750亿参数)的出现标志着新阶段。参数的暴力堆叠带来了出乎意料的结果:模型可以仅通过在输入提示(prompt)中提供的示例(demonstrations)来“即时”学习并执行新任务,而不更新模型权重或参数 ,也不需要传统的微调过程,这就是“上下文学习”。
上下文学习(In-context Learning)是大语言模型区别于传统机器学习的最显著特征。如图2所示,给ChatGPT输入“Delicious food→Positive,The food is awful→Negative,Good Meal→?”,它会输出“Positive”,它没有经历过微调,仅从上下文的几个例子就归纳出了规则并输出了正确的结果。
大语言模型是怎么做到的呢?2023年的一系列理论工作揭示了一个深刻的联系:Transformer的上下文学习,在数学上等价于隐式的梯度下降。考虑一个简化的单层线性注意力模型。给定n个示例(xi, yi)作为上下文,以及一个查询xquery,模型的前向传播可以写成:
其中。这恰好等价于在W0 = 0的初始化下,对线性回归损失做一步梯度下降所得到的权重矩阵[7-8]。
图2:上下文学习的核心机制:不更新模型参数,仅通过提供几个示例演示作为模板,让大语言模型类比学习并执行新任务。
换句话说,少量示例就可以“诱导”模型表现出类似于经过训练后的行为,模型似乎学会了“学习”本身。
更令人惊讶的是,这种能力在小模型上几乎不存在,它是在参数规模跨过某个临界值后“涌现”的结果。到了GPT-4,大模型开始展现AGI的雏形,这也引发了一个哲学层面的问题:当一个模型仅通过预测下一个词就能通过律师考试、写出可运行的代码,“理解”和“模仿”的界限在哪里?模型能否突破“鹦鹉学舌”,学习到语言的因果律?
第五阶段:多模态融合与智能体(2024-至今)。语言不再是大模型唯一接受的输入方式,图像、语音、视频被统一到同一套表示框架里。同时,大模型通过工具调用和环境交互,开始走向智能体,可以自主判断每一步需要做什么并调用工具执行任务。
图3对近三十年语言模型的发展做了一个总结。
图3:语言模型的五个阶段:从统计模型到智能体
二、Transformer:注意力是如何工作的
2017年,Google的研究团队发表了那篇后来被引用超过十万次的论文《Attention Is All You Need》[9]。近十年过去了,这篇论文提出的注意力机制,已经从一个自然语言处理的局部创新,变成了整个AI领域的基础设施,GPT系列、BERT、Stable Diffusion的图像生成、AlphaFold2的蛋白质结构预测等耳熟能详的AI名词均建立在此基础上。
市面上讲Transformer的材料已经太多:Q、K、V、多头注意力、残差连接、位置编码……公式严密,但容易让人“知其然,不知其所以然”。我们换一个更本质的问题来追问:从全连接到卷积,从图神经网络到Transformer,这些模型架构到底在进化什么?
答案是:信息聚合的方式。
沿着这条“信息聚合”的线索,语言模型的发展脉络会变得异常清晰:从固定的全连接,到局部的卷积,到预设的图网络,最终到达现在的动态、上下文驱动、全互联的注意力机制,模型可能越改越复杂,数据量和参数量可能越来越大,但最本质的变化是“信息聚合的建模方式越来越贴近现实世界”。
2.1 一个信息聚合问题
在解释注意力机制之前,先思考一个更一般的问题:神经网络的核心操作是什么?
答案是信息聚合——每个节点需要从其他节点收集信息,更新自己的表示。不同架构用不同的聚合策略:
全连接网络:每个节点跟所有节点交互,信息充分但参数量爆炸。
卷积网络(CNN):如图4所示,卷积网络注重局部邻域交互,利用空间局部性,但表现亦有限。
循环网络(RNN/LSTM):信息沿序列方向逐步传递,能处理变长序列,但串行瓶颈锁死效率。
图4:卷积网络可视作将局域信息进行聚合的过程
注意力机制的本质,是一种动态的、数据驱动的信息聚合方式。它让每个节点根据当前的内容,自主决定应该关注谁、关注多少。而且至关重要的是,它可以完全并行计算。
2.2 从连边预测到注意力:Q、K、V的由来
理解注意力机制的最好方式,是聚焦一个基本的问题:信息该怎么在词与词之间流动?
把N个词看作图上的把N个节点,最直接的做法是给每两个词之间连一条带权重的边,用一个N × N的矩阵A描述所有连接强度,A就是词之间信息流动的方式(投影),每个词的新表示就是所有词的旧表示按权重加权求和:H'=AH。
问题是:这个N × N的矩阵太大了。当N = 4096时,A有近1700万个元素,而且序列长度一变,矩阵维度也会变。我们想要的是一个动态的、随输入内容变化的连接权重,直接存储A既不经济也不灵活。
我们可以换一个思路:不存储这个矩阵,只在需要的时候临时算出来。这就变成了一个连边预测问题:给定两个节点的特征,预测它们之间的连接强度。最自然的预测方式是向量内积:方向一致(语义相关)则内积大、连边强,方向正交则连边弱。整个权重矩阵直接算出来:A=HHT。这样不需要额外参数,且天然适应任意序列长度。
但若同一个向量既做“发出查询”又做“被查询”,其表达能力是有限的。例如,“it”在做指代消解时,需要表达“我在找一个名词”;“cat”被查询时,需要呈现“我是一个动物名词”。两种角色混用同一个向量,信息会打架。一个自然的解决方案是将两者分离——用不同的线性变换把同一个输入映射到不同的语义空间,如图5所示,Q、K、V正是这种建模视角下的信息表示方式:
Query = “我在找什么”:Q=XWQ
Key = “我有什么可以被找到”:K=XWK
Value = “找到我之后能提供什么”:V=XWV
图5:注意力机制本质上是把词间关系建模为动态连边预测问题:用 Query 与 Key 的内积预测任意两词之间的连接强度,再以此权重对 Value 进行加权聚合,从而完成词间的信息流动。
连边预测从变成了,而Value的引入进一步解耦了“用什么计算相关性”和“传递什么信息”。把这些组合起来,就得到了缩放点积注意力。给定输入序列(N个词,每个词d维表示):
从网络科学的角度看,注意力机制的本质,更像是一种参数高效的、内容自适应的连边预测方案——用O(d2)的投影参数替代了O(N2)的显式连接矩阵,同时获得了动态性和泛化性。
逐步拆解这个公式:
第一步:。这是一个N × N的注意力分数矩阵,第(i,j)个元素衡量的是第i个词对第j个词的关注程度。从几何角度看,这就是Query向量和Key向量的点积——两个向量方向越一致,点积越大,语义相关性越高。
第二步:除以。当dk很大时,点积的方差与dk成正比。假设q和k的每个分量独立且均值为0、方差为1,则的方差为dk。如果不做缩放,点积值会很大,Softmax输出接近one-hot分布,梯度趋近于零。除以将方差拉回1,保证Softmax在有效区间内工作。
第三步:Softmax归一化。将分数转化为概率分布:
每一行的注意力权重之和为1,形成一个概率分布。
第四步:加权求和。第i个位置的输出是所有Value向量的加权平均:
从几何角度看,注意力机制在序列上动态构造了一个有向的、加权的信息网络。每个词根据语义相关性,从其他所有词那里汲取信息。“The cat sat on the mat because it was tired”——当处理“it”这个词时,注意力权重αit, cat应当远大于αit, mat,从而正确解析指代关系。
2.3 多头注意力:同时关注多种关系
一个注意力头只能学习一种关注模式,但语言中的关系是多元的,如图6所示,多头注意力(Multi-head Attention)让模型同时学习多种不同的关注模式:
图6:多头注意力机制中,每个头的关注不同
其中,
原论文中,d=512,有h=8个头,每个头dk = dv = d/h = 64维[9]。不同的头可以关注不同的语义维度:某个头关注语法依存关系,某个头关注指代关系,某个头关注位置邻近性。最后通过W0将拼接后的hdv维向量映射回d维。
2.4 残差连接:从正向到反向的双重合理性
深层网络面临一个核心困难:每一层的变换F(x)可能非常不光滑。它是多层运算加上注意力机制的复合结果,输出的数值可能剧烈跳跃——高维向量的每个分量跨度都很大,不一定落在我们所期望的范围内。如果让网络直接学习从输入到输出的完整映射Y = F(x),这种跳跃会让学习变得极其困难。
2015年,何恺明等人在ResNet论文中提出了一个极简但极其有效的解决方案:跳跃连接(Skip Connection)[11]。如图7所示,其核心思想是将每一层的输出从变为原始输入加上一个残差:
Y =x+ F(x)
图7:引入恒等映射可以跳跃连接(ResNet),图片由GPT Image 2生成
从正向(前向传播)的角度看,这个设计有一个朴素但有效的好处:当x本身的数量级足够大时,F(x)相对于x就成了一个小的扰动量。Y的值几乎约等于x的数量级,F(x)中那些剧烈的跳跃被“压缩”了——它不再决定输出的整体形态,只是在x的基础上做微调。
这意味着网络不再需要从零学习一个可能非常复杂、跳跃剧烈的完整映射,而只需要学习一个残差——输入和目标之间的差异。这个差异往往比完整映射光滑得多、数值范围小得多,自然也好学得多。这背后也有直觉性的支撑:直接预测明天的股价很难,但预测今天和明天的差值就容易很多——因为差值的波动幅度远小于绝对值。
从反向(反向传播)的角度看,残差连接解决的是梯度消失问题——这也是何恺明等人在ResNet原始论文中重点论证的角度。对x求梯度:
关键在于恒等矩阵I。不管F的梯度多小甚至趋近于零,梯度总有一个“1”兜底。残差连接让梯度可以跨层直接传递——从顶层一下子传到底层,不需要逐层衰减地穿过每一个F。这也是为什么以前的网络做不深:没有残差连接时,梯度必须逐层相乘,层数一多就指数级消失或爆炸。加上残差连接后,网络可以稳定地堆叠到几十层、上百层甚至更深。
还有一个更深层的视角值得一提。如果把Y看作t+1时刻的状态,x看作t时刻的状态,残差连接就是一个差分方程:
当时间间隔取得足够小时,这就变成了一个常微分方程(ODE):
沿着这个思路,Chen等[12]提出了Neural ODE——用微分方程求解器替代离散的网络层,将深度学习和动力系统理论联系起来。从这个角度看,一个L层的残差网络就是对一个连续动力系统的L步离散化,而层数趋于无穷时,它就趋近于一个连续的微分方程。残差连接不仅是一个工程技巧,它揭示了深度网络的本质是对连续变换过程的离散逼近。
2.5 归一化与前馈网络
残差连接解决了梯度流通问题,但深层网络还面临另一个挑战:数据不对齐。最开始,原始特征之间量纲差异巨大,需要做归一化让它们在同一尺度下。而进入网络之后,随着参数更新,每一层看到的输入分布也在不断漂移。因此必须引入归一化。
归一化的核心操作很简单:把数据拉回均值为0、方差为1的标准分布。给定一组数值{x1, x2, ……, xn},做变换:
其中是均值,是标准差,ϵ是一个极小值(通常为10-5或10-6),是为防止除以零而设的参数。
但强制把所有输出拉到标准分布,可能会破坏网络学到的有用表示。所以归一化之后还要接两个可学习参数——缩放因子γ和平移因子β:
如果学到γ=σ、β=μ,就完全恢复了原始分布。
不同的求均值和方差的方式,衍生出了不同的技术流派:Layer Norm与Batch Norm。为了讲清楚这两种方法的区别,我们需要先明确数据的维度。在NLP任务中,一个mini-batch的数据可以表示为一个三维张量:
其中B是batch size(一次训练多少个样本),N是序列长度(一个句子有多少个词),d是特征维度(每个词的向量维数)。
想象一个B×N×d的长方体,每个小格子存储一个标量值。如图8所示,归一化的本质问题是:该沿着哪个方向“切一刀”来计算均值和方差?
图8:Batch Norm和Layer Norm的图解(图片由GPT Image 2生成)
批归一化(Batch Norm)
批归一化(Batch Norm)的切法是沿Batch维度切,即在一个批次的数据内,对同一个特征维度求均值和标准差。
对于特征维度d中的第k个维度,收集同一个batch内所有样本、所有位置上该维度的值,计算统计量:
Batch Norm在计算机视觉中效果出色,它的成功有一个隐含前提:同一个特征在不同样本之间是可比较的。在图像中,第k个卷积核检测的是同一种视觉模式(比如边缘或纹理),不同图像在该特征上的分布确实应该被拉齐。
但在NLP中,这个前提出了问题:
变长序列。一个batch中,有的句子5个词,有的50个词。短句需要padding,但padding位置的值是无意义的,它们会污染均值和方差的计算。
位置语义差异。序列中不同位置的含义往往不同——句首是主语、句中是谓语、句末可能是标点。跨位置混合计算统计量不太合理。
Batch依赖性。Batch Norm的统计量依赖于当前mini-batch的样本组成。Batch size太小时,统计量估计不准,训练不稳定。推理时需要用训练阶段的移动平均统计量,引入了训练-推理不一致的问题。
不同于Batch Norm,Layer Norm是在同一样本的所有维度上计算,即“沿特征维度切”,更适合变长序列。对于同一个样本的同一个位置,收集该位置向量的所有d个维度的值,计算统计量:
Transformer中没有使用Batch Norm,建立在其上的一系列模型也是清一色地只使用Layer Norm做归一化,消除不同特征量纲的影响。
RMSNorm:更简洁的选择
DeepSeek系列进一步采用了RMSNorm(Root Mean Square Normalization)[13],思路更加激进——去掉减均值的步骤,只保留缩放:
其中均方根值的计算为:
为什么可以省掉减均值?RMSNorm的作者认为,归一化的核心价值在于控制向量的尺度(模长),使其不会随着层数增加而爆炸或消失。减均值的操作提供的额外好处相对有限,去掉它可以节省计算量。
实验验证了这个判断:在多数任务上,RMSNorm的效果与Layer Norm几乎无差异,但因为减少了均值的计算和减法操作,在大规模模型训练中可以带来约5%~10%的速度提升[13]。当模型参数达到数百亿甚至数千亿量级时,这个比例对应的是大量的GPU小时和真金白银。
LLaMA、DeepSeek-V3、Gemma等当前主流的大语言模型都采用了RMSNorm,在效果和效率之间取得了最优平衡[14-16]。
前馈网络:信息聚合之后的信息处理
从信息流动的角度,上述的注意力机制已经让每个词看到了所有其他词的信息,但关键在于,注意力层完成的是信息聚合,但它的运算以线性为主。虽然Softmax引入了非线性,但仅这一层非线性的处理能力是有限的。加权求和本质上是一个线性组合——把信息收集过来了,但还没有对这些信息做充分的非线性加工。
图9:FFN层的作用机制
而在现实世界中,信息的处理方式绝非简单的线性组合就可以被表达完全。前馈网络(FFN)将这一块补上了,如图9所示,它的结构是“先放大再压缩”:
从d维输入,先通过放大到4d维,将网络变宽,在更高维的空间中做非线性变换(ReLU激活),再通过压缩回d维输出。在此过程中,放大是为了增加表达能力,压缩是为了保持维度一致,方便残差连接和层间传递。
综上,一个Transformer层的分工是:
注意力层:信息聚合,建立词与词之间的动态连接,解决的是“应该从谁那里获取信息”。
前馈网络:信息处理,通过多层非线性变换提取更深层的特征,解决的是“拿到信息之后怎么加工”。
DeepSeek-V3的主要改动恰恰集中在这两个不那么性感的组件上:Norm从Layer Norm换成了RMSNorm(计算更快),FFN从标准前馈网络换成了混合专家系统(MoE)——不同的输入被路由到不同的专家子网络处理,大幅提升参数效率[15],而注意力机制本身基本没有改动。
这说明一个值得玩味的事实:Transformer的核心创新是注意力机制,但后续迭代的主战场,反而是那些看起来不那么重要的工程组件。残差连接、归一化、前馈网络——这些技术大多是过去十到二十年里积累下来的工程化技巧,单独拿出来都不算惊艳,但在实际训练中,加上跟不加,效果差别巨大,它们是让Transformer从论文走向工业级系统的基础设施。
2.5 位置编码:让注意力“知道”顺序
语言是有顺序的,“狗咬人”和“人咬狗”意思完全不同。因此,需要引入位置编码让注意力明白位置与顺序,常见的一个方案是用正弦和余弦函数进行位置编码:
其中pos是位置索引,i是维度索引。在许多处理方案中,位置编码向量会被直接加到词嵌入向量上:。
图10:Transformer中的正弦余弦位置编码公式,这种编码能让模型更容易通过相对位置信息来学习注意力
一个很自然的问题是:为什么用三角函数而不是简单使用位置的编号?
第一,值域有界且连续。简单编号的问题是序列很长时数值差异很大,而三角函数始终在[-1, 1]之间。
第二,这种方法可以通过三角函数的和差公式天然体现相对位置:
位置pos+k的编码可以通过位置pos的编码经线性变换得到——模型不需要记住绝对位置,只需学习位置之间的偏移量。如图10所示,直观上来看,不同维度使用不同频率的正弦波,类似二进制编码中不同位的翻转频率——低频维度编码大尺度位置信息,高频维度编码细粒度位置信息。
2.6 编码器-解码器:完整的信息流
如图11所示,完整的Transformer是编码器-解码器结构。解码器比编码器多了两个关键设计:
1. 掩码自注意力(Masked Self-Attention)。在注意力分数矩阵中,将未来位置设为-∞:
其中掩码矩阵M的上三角部分为-∞,经过Softmax后变为0,确保生成第t个词时只能看到前t-1个词。
2. 交叉注意力(Cross-Attention)。将编码器输出作为K和V,解码器自身的表示作为Q:
这是编码器和解码器之间信息交互的桥梁——解码器生成每个词时,通过交叉注意力查询编码器的输出,决定应该关注输入的哪个部分。
图11:Transformer架构图
一个容易混淆的要点是:训练和推理的运行方式完全不同。训练时,解码器的输入是完整的目标序列(通过掩码确保模型不提前看到答案),所有位置可以并行计算。推理时,必须自回归地逐步生成——先生成第一个词,再把它作为输入生成第二个词,一个接一个,类似“接龙”。
三、从GPT到DeepSeek:
两条技术路线的分叉
3.1 GPT:Decoder-only的范式创新
2020年5月,OpenAI宣布推出GPT-3模型的beta版本,该模型拥有1750亿个参数,是当时最大的自然语言处理模型。不同于当时很火的BERT,GPT做了一个关键的架构选择:只用解码器,扔掉编码器。所有NLP任务都统一转化为“给定上文,生成下文”的序列生成问题,训练目标就是最大化自回归对数似然:
实验发现了一个有趣的现象:多任务联合训练的效果优于单任务累加——模型在翻译任务上学到的知识,居然能帮助它做文本分类,这验证了大规模自回归预训练能学到通用的语言表示。不过,这并非GPT的独家发现,是迁移学习和多任务学习领域的一个经典结论。
3.2 ChatGPT的三阶段对齐
技术上来说,GPT(以 GPT-3 为例)是一个纯粹的下一个词预测器,它是一个很大的模型,但是离我们现在所理解的大语言模型还有一段距离。 GPT-3 能写出通顺的段落,但也经常输出种族歧视、事实错误等“不被人类所接受”的内容。从统计学上来说这非常合理,因为这些内容在训练数据里确实存在。
2022年11月30日,OpenAI正式发布ChatGPT,它能够比较自然地与人对话,科幻小说中的“与人对话的机器人”第一次大规模地照进现实。ChatGPT 的创新在于:它在 GPT 的基础上,刻意把模型的输出训练为特定风格——有帮助的、诚实的、无害的(即著名的 HHH 目标)[17-19],其训练过程分为三个阶段:
阶段一:预训练,使用大量文本得到Base Model,让模型掌握语言和世界知识,但行为是补全文本而非回答问题。
阶段二:监督微调(SFT),用人工编写的高质量指令-回答对微调,教会模型对话格式。微调目标可以被表示为:
其中x是用户指令,y是期望回答。
阶段三:RLHF,让模型的回答进一步与人类偏好对齐。在这个过程中,一个很有效的创新点是,不让标注员直接打分,改为做两两比较排序,因为“A比B好”这样一个相对判断比绝对打分客观得多。从数学表达上来说,即给定两个回答yw(更好)和yl(更差),奖励模型rΦ通过Bradley-Terry模型训练:
其中σ是sigmoid函数。然后用PPO算法(Proximal Policy Optimization,近端策略优化)优化语言模型策略πθ,最大化奖励的同时约束策略不偏离参考模型πref太远[20]:
但PPO的工程也有其巨大痛点:需要同时维护四个模型——策略模型πθ、参考模型πref、奖励模型rΦ和价值网络Vψ(Critic)。价值网络用于估计状态价值Vψ(s)以计算优势函数A = R - Vψ(s),但它的参数量与策略模型相当,显存开销巨大。
3.3 DeepSeek:GRPO的简洁之道
2025年初,DeepSeek发布R1模型,凭借低成本训练、开源策略、性能对标全球顶尖模型的三重颠覆性突破,打破了“堆算力”的传统AI研发路径。不同于ChatGPT系列模型,DeepSeek-R1 用GRPO(Group Relative Policy Optimization,群体相对策略优化)替代PPO,用一个非常简洁的操作,替代了PPO中复杂的“价值网络”模块。对于每个问题x,让模型生成一组G个回答{y1, ……, yG},用组内回答的相对奖励计算优势函数:
然后用裁剪后的策略梯度更新:
省掉价值网络后,训练时需维护的模型从四个减少到三个,显存需求大幅降低,而GRPO的对齐效果并不逊色于PPO。
四、新趋势:当模型开始思考
4.1 涌现:数据量和参数量带来的意外能力
GPT的问世也引发了人们的思考:为什么大语言模型能做到以往设计精妙的小模型做不到的事情?它的能力是怎么“冒”出来的?
2022年,Google的Jason Wei等人系统性地考察了一批语言任务在不同规模模型上的表现,发现参数量较小的模型上,在多步算术推理、指代消解、常识推理等任务上的表现接近随机猜测,模型仿佛“完全不会”。但是,当参数量跨过某个临界值时,其性能突然跳跃式提升,仿佛模型一夜之间学会了这些任务[21],如图12所示。关于这一“涌现”现象,Jason Wei曾应集智俱乐部邀请,在2022年年会上做过题为《Emergent abilities unlocked by scaling up language models》的专题分享,系统探讨了其机理与启示,详见:https://pattern.swarma.org/study_group_issue/504。
图12:参数量跨过某个临界值时,大模型的各类性能突然跳跃式提升
这种现象被称为涌现能力(Emergent Abilities)。围绕涌现原因的学术讨论至今没有定论。例如,Schaeffer等人[22]提出了一个尖锐的质疑:涌现可能有部分是度量指标选择的假象。很多展示涌现的任务用的是精确匹配(Exact Match)这类离散指标——要么完全对,要么完全错。因此,当模型能力平滑提升但还没达到“完全正确”的门槛时,得到的分数一直是0;一旦跨过这个门槛,其分数可以突然跳到1。换用连续指标(比如编辑距离或部分匹配分数)后,其随着参数量变化而变化的得分曲线可能由突然跳跃的曲线变成平滑上升的斜坡。由此看来,涌现也许并不代表模型能力的突变,可能只是度量方法带来的错觉。
但即便如此,这背后的事实是不争的:大模型确实能做到小模型做不到的事。至于它究竟是达到某个参数量后带来质变,还是量变的累积被离散指标放大了,可能还需要更多的理论工作。
在实践层面,OpenAI的Scaling Law研究[23]给出了一个可操作的经验规律:训练损失与计算量之间存在幂律关系:
其中,C表示投入的计算量C(FLOPs)。如图13所示,可以理解为,计算量每翻一个数量级,损失下降一个固定比例。这条幂律在跨越多个数量级的范围内保持成立,也带来了算力、数据和参数量的“内卷”。
图13:计算量、数据集和参数量上升后,损失会下降
DeepMind的Chinchilla论文[24]进一步追问了一个更精细的问题:给定固定的计算预算,参数量和数据量应该怎么分配?答案是两者应当等比例扩展。之前的行业惯例是疯狂堆参数(GPT-3用了1750亿参数,但只用了3000亿token的数据),Chinchilla指出这是一种浪费——同样的计算预算,用更小的模型配更多的数据,效果会更好。这篇论文直接影响了后续的模型设计,LLaMA等后来者都采用了更均衡的参数-数据配比。
Scaling Law描述的都是训练阶段模型能力的可拓展性。事实上,想让模型表现更好,可以努力的方面还有很多。
4.2 推理:让模型多思考一会
2022年,Wei等人提出的思维链(Chain of Thought, CoT)提示方法,发现大语言模型中也有“四两拨千斤”的小诀窍:在提示中加一句“Let's think step by step”,大模型的数学推理能力就大幅提升[25]。
为什么会这样?一个直觉性的解释是:自回归模型每生成一个token,只做一次前向传播。对于复杂的推理问题,一次前向传播的计算量不足以得出正确答案。思维链的作用是把推理过程展开到输出序列中——模型在生成中间步骤时,每一步都触发一次新的前向传播,相当于用更多的计算来处理问题。
传统的Scaling Law关注的是训练阶段:参数越多、数据越多、训练越久,模型越好。但推理时计算扩展(Inference Scaling Laws)揭示了另一个维度:即使模型参数不变,通过在推理时投入更多计算(生成更长的推理链、进行多次采样、反复验证和修正),也能持续提升性能。
OpenAI的o1模型和DeepSeek-R1都在实践这个方向。它们在回答复杂问题时,会先生成一段长长的思考过程——分解问题、尝试不同路径、检查中间结果、纠正错误——然后才给出最终答案。这段思考过程可能长达数千token,消耗的推理计算量远超普通回答[16][26]。
这对产业落地有深远的意义。传统范式下,想要更强的模型就必须训练更大的模型,成本以千万美元计。推理时扩展提供了一种更灵活的方案:训练一次,推理时按需调节思考深度。简单的事实性问题,让模型秒答即可;复杂的数学证明或代码调试,让模型多花时间想一想。用户为推理计算付费,而不是为训练成本付费——这可以重新定义大模型的商业模式。
不过,思维链能帮助的主要是可分解为步骤的推理任务(数学、编程、逻辑推演),对于那些需要整体直觉判断的任务(创意写作、审美评价),想得更久未必有用。而且推理链越长,累积错误的风险也越大——模型可能在第5步犯了一个小错,然后在后续20步中基于错误的前提一路推导下去。如何让模型在推理过程中有效地自我纠错,是当前的一个活跃研究方向。
4.3 工程:从Prompt到Harness
人类理解和改造世界的时候,总是先认识到是什么(What)这个维度,再去想为什么和怎么做(Why与How)。在大语言模型已经能够回答大部分问题后,AI使用者开始自然地把大模型融入一整套真正可以解放双手、帮自己干活的系统。
上升到系统这个层级后,工程范式就变得非常重要。一个大模型在基准测试上表现优异,不代表它能可靠地服务于生产环境。它可能在90%的情况下给出精彩的回答,但在剩下10%的情况下自信地胡说(即常被提及的AI幻觉现象)。对于一个聊天机器人而言,10%的错误率也许可以接受,因为有人类来判断正确性和承担后果;对于一个全自动的医疗诊断助手或金融分析工具而言,1%的错误都可能变为灾难。
围绕大模型的工程方法论经历了三个代际的演进。
第一代:Prompt Engineering(提示工程)。这是2023年的主流范式,其核心思路是精心设计输入提示词,例如给定角色、提供少样本示例、约束输出格式、利用思维链引导[25][27],把“如何让模型理解我想要什么样的回答”当作主要解决的问题。
Prompt Engineering能让我们获得更想要的回答,但它有一个根本局限:只能控制输入,无法控制模型怎么处理输入。同一个精心设计的Prompt,换一个模型版本可能就失效了,难以量化和复现。
第二代:Context Engineering(上下文工程)。2024年以来,Andrej Karpathy等人开始强调上下文工程的概念,Prompt Engineering中很多方法更像是一堆trick的堆积,但上下文工程开始系统性思考资源约束、设计模式、可观测性,这是一次重要的认知升级。
上下文窗口被当作一种稀缺资源来管理,什么信息放进去、什么顺序排列、什么时候检索新信息、什么时候丢弃旧信息,都需要系统性的设计,而Prompt只是上下文的一小部分。一个完整的上下文可能包括:系统指令、用户的多轮对话历史、从外部知识库检索到的相关段落、之前工具调用的返回结果、格式约束和安全规则。
RAG(检索增强生成)是上下文工程最典型的实践。相较于把所有知识塞进模型的参数里,在需要时从外部数据库检索相关内容,动态地填充到上下文中,变成了一个更有效的选择。
第三代:Harness Engineering(驾驭工程)。这是当前正在成形的最完整范式,它的核心思想是:把大模型视作一个需要被“驾驭”的能力引擎,围绕它去构建完整的控制系统。
如图14所示,一个Harness系统包含三个层次:
信息层,用于决定模型该看到哪些内容——系统提示、用户输入、检索结果、工具返回值、历史上下文、权限限制。它可以被看作是Context Engineering的升级,但更强调信息的动态编排而非静态拼接。
执行层,用于决定模型可以做什么——模型的输出不再只是文本,还可以是工具调用(搜索引擎、计算器、代码解释器)、API请求(数据库查询、邮件发送)、甚至物理操作(操控浏览器、编辑文件)。
反馈层,用于判断模型做的对不对并纠正模型——工具调用的返回值、代码运行的报错信息、用户的修正指令等,都被回传给模型,形成闭环。模型根据反馈修正策略、重新规划、纠正错误。
图14:Harness Engineering的三层架构:信息层、执行层和反馈层
今天使用大模型,大致分为六个层次,难度递增:
Prompt交互层:直接使用自然语言对话,很简单。
API调用层:通过代码等方式调用模型API,实现程序化交互。
外部知识集成层(RAG):检索增强生成,让模型基于私有数据回答。难点在于知识块的切分粒度——切太细丢失语境,切太粗浪费窗口。
AI Agent层:设计智能体执行复杂工作流,涉及任务拆解、工具调用等,难度上升。
微调LLM层:在预训练模型基础上用垂直数据微调,需要算法工程能力,对于领域数据有一定要求。
训练LLM层:从零或大规模预训练基础模型,对算力、算法和数据要求极高。
其中,AI Agent正是Harness Engineering思想的典型产物。一个成熟的Agent不该被视作“更聪明的聊天机器人”,它其实更像是一个在信息-执行-反馈循环中自主运转的系统,具备三个核心要素:自主性、任务特定性、反应性。
从Prompt到Context到Harness,这三代范式的演进揭示了一个深层的趋势:从单纯跟模型对话,变为设计一个以模型为核心的系统。AI的能力边界由模型和工具决定,但AI的可靠性边界由驾驭它的系统决定。
结语:
模型预测下一个词,架构预测下一个时代
让我们回到最开头那个问题:这场AI浪潮最后会留下什么?
读到这里,也许你已经有了一个更具体的回答:一套信息聚合与处理的底层思想与对应的架构,以及围绕它生长出来的训练方法、对齐技术和工程范式。
回顾近三十年语言模型的发展,统计语言模型问的是“这个词后面最常跟什么词”,Word2Vec问的是“词和词之间的语义关系能不能被计算”,Transformer问的是“信息在序列中该如何流动”,GPT问的是“一个模型能不能通过预测下一个词来理解世界”,而今天的AI Agent问的是“理解了世界之后,如何在世界中行动”。每一个模型对应的问题都包含了前一个问题,但又打开了前一个问题看不到的空间。
站在2026年这个时间点,我们正处在一个特殊的位置。Transformer架构已经八岁了,这在AI领域是很长的寿命。目前还没有任何架构在大规模场景下真正超越它,但Mamba等状态空间模型、混合架构、以及各种效率优化方案都在积极探索中;而在应用层面,从Prompt到Context到Harness的工程范式演进,正在重新定义人类与AI协作的方式——我们不再只是向模型提问,AI也许正在变成一套类似苹果、安卓的生态系统。
语言模型从诞生之初就在做一件事:给定过去,预测未来,给定前面的词,预测下一个词。给定这几十年的技术演进,我们也许无法精确预测下一个突破会是什么。但我们可以做到的是,当突破到来时,不把它当作魔法,而是把它放进一个可理解的框架里——看清它从哪里来、改变了什么、以及边界在哪里。
参考文献
[1]Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423.
[2]Chen, S. F., & Goodman, J. (1999). An empirical study of smoothing techniques for language modeling. Computer Speech & Language, 13(4), 359-394.
[3]Suen, C. Y. (1979). N-gram statistics for natural language understanding and text processing. IEEE transactions on pattern analysis and machine intelligence, (2), 164-172.
[4]Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of machine learning research, 3(Feb), 1137-1155.
[5]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[6]Mikolov, T., Karafiát, M., Burget, L., Cernocký, J., & Khudanpur, S. (2010, September). Recurrent neural network based language model. In Interspeech (Vol. 2, No. 3, pp. 1045-1048).
[7]Akyürek, E., Schuurmans, D., Andreas, J., Ma, T., & Zhou, D. (2022). What learning algorithm is in-context learning? investigations with linear models. arXiv preprint arXiv:2211.15661.
[8]Von Oswald, J., Niklasson, E., Randazzo, E., Sacramento, J., Mordvintsev, A., Zhmoginov, A., & Vladymyrov, M. (2023, July). Transformers learn in-context by gradient descent. In International Conference on Machine Learning (pp. 35151-35174). PMLR.
[9]Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
[10]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[11]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
[12]Chen, R. T., Rubanova, Y., Bettencourt, J., & Duvenaud, D. K. (2018). Neural ordinary differential equations. Advances in neural information processing systems, 31.
[13]Zhang, B., & Sennrich, R. (2019). Root mean square layer normalization. Advances in neural information processing systems, 32.
[14]Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M. A., Lacroix, T., ... & Lample, G. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
[15]Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., ... & Piao, Y. (2024). Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437.
[16]Guo, D., Yang, D., Zhang, H., Song, J., Wang, P., Zhu, Q., ... & Tan, Y. (2025). DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature, 645(8081), 633-638.
[17]Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
[18]Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training [Technical report]. OpenAI.
[19]Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners [Technical report]. OpenAI Blog.
[20]Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
[21]Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., ... & Fedus, W. (2022). Emergent abilities of large language models. arXiv preprint arXiv:2206.07682.
[22]Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are emergent abilities of large language models a mirage?. Advances in neural information processing systems, 36, 55565-55581.
[23]Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
[24]Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., ... & Sifre, L. (2022). Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 10.
[25]Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
[26]Jaech, A., Kalai, A., Lerer, A., Richardson, A., El-Kishky, A., Low, A., ... & Metz, L. (2024). Openai o1 system card. arXiv preprint arXiv:2412.16720.
[27]Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
参考文献可上下滑动查看
课程推荐
从“看懂”技术脉络到“亲手驾驭”这股浪潮,中间还差一次系统性的实践。当AI Agent开始从“预测”走向“行动”,当“氛围编程”正在模糊产品经理与工程师的边界,我们该如何快速跟上并参与其中?
集智俱乐部、集智学园创始人,北京师范大学张江教授开设了,致力于打破学科壁垒,将复杂系统与人工智能深度融合。从神经网络到因果推断,从世界模型到多尺度建模,甚至包含最前沿的“氛围编程(Vibe Coding)”实战,带你亲手落地AI项目。
1.
2.
3.
4.
5.
6.
7.
#整理
热门跟贴