八年前,谷歌研究团队扔出一篇标题很狂的论文——"Attention Is All You Need"。没人想到,这个叫Transformer的架构会成为今天所有大模型的地基。GPT-4、Claude、Llama、Gemini,全是它的子孙。理解这套机制,不是考古,是搞懂当下AI的必修课。
核心就一句话:用注意力机制替代递归,让模型同时看到所有词,而不是像RNN那样逐字啃。这改变了游戏规则。
自注意力机制是地基。每个输入词被拆成三个向量:Query(查询)、Key(键)、Value(值)。Query问"我该关注谁",Key回答"我有什么信息",Value提供实际内容。计算方式是Q·K^T除以根号d_k,再用softmax归一成概率分布,最后加权求和Value。结果是:任意两个词的关系,无论隔多远,都能直接计算。不像RNN,越远越模糊。
多头注意力是下一步进化。不是一套Q/K/V,而是并行跑8到96套。每套"头"学不同的东西:有的抓语法关系,主谓一致;有的抓语义关联,"苹果"和"水果";有的专门记位置,预测下一个词。最后把各头的输出拼接,再投影回模型维度。拆开看这些头的行为,能窥见模型怎么"理解"语言——虽然它其实不"理解",只是模式匹配到极致。
位置编码解决一个尴尬问题:Transformer本身不知道词序。"我爱你"和"你爱我"对它原本没区别。原始方案是用正弦余弦函数,不同频率交织,给每个位置独特指纹。后来出现学习式位置嵌入,直接训练位置向量。再进化到RoPE(旋转位置嵌入),把Q和K向量按位置旋转,让注意力分数自然体现相对距离而非绝对坐标。Llama、Mistral这批现代模型都用RoPE。还有ALiBi,直接在注意力分数上加位置偏置,思路不同,目标一致。
前馈网络藏在每层注意力之后,容易被忽略,其实干活很猛。两层线性变换夹一个非线性激活,隐藏维度通常是模型维度的2到4倍。这里存着训练中学到的事实知识——"巴黎是法国首都"这类信息。中间那层宽的表示,捕捉复杂模式。SwiGLU这种门控机制(Llama 2/3在用)加了可学习的门,表达能力更强。更激进的路线是MoE(混合专家),用多个小专家替代单一FFN,推理时只激活部分,把规模做大同时控制计算成本。
这套架构的厉害之处,在于模块化堆叠。自注意力处理关系,前馈网络存储知识,位置编码注入顺序,多头机制分散学习。2017年的设计,到今天只做了局部改良——换换位置编码,改改激活函数,FFN变MoE——骨架没动。这在迭代飞快的AI领域,几乎是个奇迹。
也留下悬念。Transformer的二次复杂度(序列长度的平方)正在逼出各种优化:线性注意力、状态空间模型、RNN复活。但新架构要颠覆旧王座,得先证明自己能scale。而scale这件事,Transformer已经验证了八年。
热门跟贴