2017年那篇论文，怎么还在统治今天的AI|向量|序列|新论文|维度

八年前，谷歌研究团队扔出一篇标题很狂的论文——"Attention Is All You Need"。没人想到，这个叫Transformer的架构会成为今天所有大模型的地基。GPT-4、Claude、Llama、Gemini，全是它的子孙。理解这套机制，不是考古，是搞懂当下AI的必修课。

核心就一句话：用注意力机制替代递归，让模型同时看到所有词，而不是像RNN那样逐字啃。这改变了游戏规则。

自注意力机制是地基。每个输入词被拆成三个向量：Query（查询）、Key（键）、Value（值）。Query问"我该关注谁"，Key回答"我有什么信息"，Value提供实际内容。计算方式是Q·K^T除以根号d_k，再用softmax归一成概率分布，最后加权求和Value。结果是：任意两个词的关系，无论隔多远，都能直接计算。不像RNN，越远越模糊。

多头注意力是下一步进化。不是一套Q/K/V，而是并行跑8到96套。每套"头"学不同的东西：有的抓语法关系，主谓一致；有的抓语义关联，"苹果"和"水果"；有的专门记位置，预测下一个词。最后把各头的输出拼接，再投影回模型维度。拆开看这些头的行为，能窥见模型怎么"理解"语言——虽然它其实不"理解"，只是模式匹配到极致。

位置编码解决一个尴尬问题：Transformer本身不知道词序。"我爱你"和"你爱我"对它原本没区别。原始方案是用正弦余弦函数，不同频率交织，给每个位置独特指纹。后来出现学习式位置嵌入，直接训练位置向量。再进化到RoPE（旋转位置嵌入），把Q和K向量按位置旋转，让注意力分数自然体现相对距离而非绝对坐标。Llama、Mistral这批现代模型都用RoPE。还有ALiBi，直接在注意力分数上加位置偏置，思路不同，目标一致。

前馈网络藏在每层注意力之后，容易被忽略，其实干活很猛。两层线性变换夹一个非线性激活，隐藏维度通常是模型维度的2到4倍。这里存着训练中学到的事实知识——"巴黎是法国首都"这类信息。中间那层宽的表示，捕捉复杂模式。SwiGLU这种门控机制（Llama 2/3在用）加了可学习的门，表达能力更强。更激进的路线是MoE（混合专家），用多个小专家替代单一FFN，推理时只激活部分，把规模做大同时控制计算成本。