打开网易新闻 查看精彩图片

这项由巴勒斯坦拉马拉Brains Build Research机构独立完成的研究,以预印本形式发表于2026年4月,论文编号为arXiv:2604.14430,有兴趣深入了解的读者可以通过该编号查询完整论文。

研究的核心思路来自一个意想不到的地方——19世纪的电力工程。在特斯拉发明的三相交流电系统中,三根电线传输的电流彼此错开120度,任何时刻三者之和恰好为零。这个被电气工程师沿用了一百多年的优雅设计,被研究者搬进了现代AI语言模型的内部结构,产生了一套只需增加极少代码便能让模型训练更快、质量更好的新方法,称为"三相变换器"(Three-Phase Transformer,简称3PT)。

在了解这项研究为何值得关注之前,有必要先理解一个基础背景。当今绝大多数主流AI语言模型,从各类聊天机器人到代码助手,其内部都依赖一种叫做Transformer的架构。Transformer的核心是一条贯穿整个模型的"信息高速公路",每个词语经过处理后都以一个高维度的数字向量形式在这条公路上流动。如何更好地组织这条公路上流动的信息,一直是研究者孜孜探索的问题。这项研究给出的答案是:把这条公路划分成三条并排的车道,让它们像三相电那样协同工作。

这个方案的令人称道之处在于它的极度轻量化。在一个拥有1.23亿参数的标准语言模型上,这套三相结构只额外增加了1536个可训练参数,占总参数量的0.00124%,几乎可以忽略不计。然而就是这点微小的改动,让模型在标准测试集WikiText-103上的困惑度(衡量语言模型质量的核心指标,数值越低越好)下降了7.20%,同时训练达到相同质量所需的步骤数减少了接近一半,达到1.93倍的收敛加速。

一、把电力工程的三相平衡原理装进AI大脑

要理解三相变换器的核心思想,可以用一个生活中的比喻来切入。假设你有一个管道系统需要输送水流,你可以用一根粗管子,也可以把它分成三根细管子并排输送。如果这三根细管子中的水流以某种协调的方式流动,彼此"相位"错开三分之一个周期,那么整个系统在任何时刻都处于完美平衡状态,没有多余的振动和干扰,输送效率反而会更高。

三相变换器正是基于这个原理。它把语言模型中每个词语对应的高维信息向量(可以理解为描述这个词语的一大排数字)整齐地分成三段,称为"A相""B相""C相",每段各占总长度的三分之一。这三段就像三根并排的水管,通过一套精心设计的操作协调运行。

关键操作有以下几类,且每一类都有其独特的作用。第一类是"相位旋转层",它被插入到模型每一个处理单元(称为"块")的注意力机制和前馈网络之间。这个旋转层会对三段信息分别施加一个小角度的旋转变换,A相转0度加上一个共同的学习角度,B相转120度加上同一个学习角度,C相转240度加上同一个学习角度。这种"每隔120度"的设计,正是电力工程中三相电的核心,三个方向均匀分布在圆周上,彼此保持最大程度的独立性,同时又能在数学上完美互补,三者之和为零。第二类是"相位感知归一化",它把模型中通常用于稳定训练的归一化操作从"整体统一处理"改为"三段各自处理",让每段信息有自己独立的缩放比例,互不干扰。第三类是"相位对齐的注意力机制",通过调整注意力头的数量使其能被三整除,让每个注意力头完整地落在某一个相位分段内,保持结构的整洁性。第四类则是接下来要重点介绍的"加布里埃尔号角注入"。

这套操作的美妙之处在于,它不是一个独立的附加模块,而是一种渗透在整个模型结构中的"约定"。注意力机制和前馈网络仍然按原来的方式运作,该混合的还是混合,该计算的还是计算,只是在每次处理之后,通过相位旋转和相位归一化把三段信息重新"拉回"到平衡状态。研究者把这个过程比作三条并排的传送带:内容会不断地被注意力机制和前馈网络搅混在一起,但随即又被相位操作重新整理回三条轨道上。这个系统是一个自发的平衡态,而非强制约束。

数学上同样有一个有趣的性质。当三个120度间隔的分量完全平衡时,整个向量空间中会多出一个特殊方向——沿着"三段各自的平均值相等"的方向——与三个相位的主体内容完全垂直(在数学上称为"正交")。这个方向平时是空闲的,研究者把它称为"直流隧道"(DC subspace),并在其中塞进了一个精心设计的绝对位置信号,也就是接下来要介绍的加布里埃尔号角。

二、把17世纪的数学悖论变成位置编码

AI语言模型在处理一段文字时,需要知道每个词语在句子中的位置——"猫追狗"和"狗追猫"意思截然不同,位置信息至关重要。目前主流模型普遍采用一种叫做RoPE(旋转位置编码)的技术来表达词语之间的相对位置关系,它工作得非常好,但有一个刻意的设计取舍:RoPE只告诉模型两个词语之间的距离,却不直接告诉模型某个词语是句子的第1个词还是第500个词,也就是说它对"绝对位置"是模糊的。

三相结构开辟的那个直流隧道,恰好为填补这个空缺提供了一个干净的通道。研究者选择注入的信号是一个叫做"加布里埃尔号角"的数学曲线,用公式表示是r(p) = 1/(p+1),其中p是词语的位置序号。位置0(句子第一个词)对应值1.0,位置99对应值0.01,位置999对应值0.001,以此类推。

加布里埃尔号角来自17世纪意大利数学家托里拆利描述的一个几何悖论:把曲线y=1/x绕x轴旋转一圈得到一个喇叭形状的立体,这个立体的体积是有限的,但它的表面积却是无穷大,就像一个"能装满颜料却永远涂不完自己表面"的神奇容器,被称为"画家悖论"。这个性质在这里有一个工程上的对应意义:这条衰减曲线在所有位置上的值加起来等于调和级数的和,其增长速度像ln(N)一样极其缓慢,意味着无论序列多长,注入的总能量始终有限,不会把模型"淹没"。

从直觉上讲,这个信号对语言来说也非常合理。一句话的第一个词往往最有位置特殊性——"今天""当时""如果"这类词出现在开头和出现在句子末尾意义往往大相径庭。而句子中段的词语,位置相差几格对理解影响就没那么大了。加布里埃尔号角的形状天然编码了这种"开头特殊、后面渐渐模糊"的直觉。

更关键的是,这个信号与RoPE的工作空间完全不相交。RoPE在注意力机制内部对词语的查询向量和键向量施加旋转,处理的是词语之间的相对关系;加布里埃尔号角住在直流隧道里,处理的是词语的绝对位置,两者互不干扰,可以同时存在且相互补充。实验数据也证实了这一点:在每一次评估中,直流隧道中的残差值精确地固定在一个由号角数学性质决定的理论值(对于长度1024的序列是3×H????/1024≈0.0220),从未偏离,这是对两者完全正交的最直接证明。

三、一段曲折的发现之旅:差点就放弃了

读到这里,你可能以为研究者从一开始就有了三相加RoPE这个完整方案,然后通过实验验证它。实际上,这项研究的历程远比这曲折得多,而且差点在中途就以失败告终。

研究者最初的实验(称为实验1)是在一个传统的Transformer架构上测试三相结构,结果喜出望外:在相同训练步数下,三相嵌入方案把困惑度从73.17降到了64.96,改善幅度超过11%,而且在训练步数只有基准方法一半的时候就达到了基准方法的最终水平,大约快了两倍。实验还发现,三相结构的增益主要来自嵌入层(词语表示的几何结构),而不是来自注意力机制内部。

然而,当研究者把这个方案移植到采用RoPE的现代架构上时(实验2第一阶段),结果让人沮丧:三相方案(困惑度62.29)被RoPE单独(困惑度53.85)轻松击败,落后幅度接近16%。如果就此停下,结论就是"三相结构在现代架构面前毫无竞争力"。

但研究者重新审视了失败原因:三相结构和RoPE根本不是在做同一件事。三相嵌入是一种"加法式"的位置编码,直接把位置信号加进词语向量里;而RoPE是"乘法式"的,在注意力计算内部对向量施加旋转。它们工作在不同的位置,影响的是不同的机制。换句话说,之前的实验其实是在比较两个本来就应该叠加使用的工具,而不是两个互相竞争的工具。

于是实验2第二阶段把两者叠加起来:三相结构处理残差流的几何组织,RoPE继续处理注意力内部的位置关系。结果,叠加方案的困惑度一路降到45.58,比RoPE单独使用的53.85低了足足15%。这一发现是整个研究的转折点,也是最重要的认知:三相结构不是RoPE的替代品,而是它的正交补充。

整个后续的实验链条,本质上都是在这个核心发现之上不断精简和改进。研究者发现嵌入层内部的正弦位置编码其实是累赘(去掉之后困惑度从14.79降到14.40),发现缩放系数也是累赘(去掉之后再降到13.97),发现强制零和约束没那么必要(几何结构会自动稳定),最后发现直流隧道可以用来注入加布里埃尔号角(再降到13.90)。每一步简化都让模型变得更轻、质量更好,这种"越减越好"的轨迹在模型架构研究中颇为罕见。

四、三"相"真的是最优选择吗?这个问题的答案出人意料

"三相"这个名字让人自然想问:为什么一定是三段?两段或者四段会不会更好?研究者也在两个规模的模型上系统地测试了这个问题。

在小规模模型(550万参数,使用TinyStories数据集)上,研究者测试了将向量分成1、2、3、4、6、8、12段的七种配置。结果显示,分段数越少(也就是每个旋转参数负责的维度越多,独立性越强),效果越好。N=1(不分段,每对维度各有独立的旋转角度)的效果最好,N=12最差,整体呈现单调递减趋势。

这个结果在123M规模的实验中发生了戏剧性反转。用单一种子(seed 42)测试时,N=3在30个评估检查点上全程领先N=1,差距约为0.10困惑度单位。看起来"规模越大,三相结构越有优势"的结论似乎成立。

然而,当研究者用三个不同的随机种子分别测试N=3和N=1时,结论又变了:三个种子中有两个种子下N=1胜出,只有一个种子(正是之前单独测试用的seed 42)让N=3胜出。统计分析显示,N=3和N=1的平均差距约为0.08困惑度单位,而估计的统计误差约为0.09单位——误差比差距本身还大。换句话说,在123M规模下,N=1和N=3的性能差异实际上在统计上无法区分,两者无分高下。

这个发现迫使研究者修正了自己的叙事。分段数N本质上是一个"参数共享旋钮":N越大,每组旋转参数需要覆盖的维度越少,灵活性越低,类似于给更多参数施加了约束;N越小,每对维度有自己的独立旋转,灵活性越高。在小规模模型上,灵活性更重要;在大规模模型上,这种约束反而可能起到类似正则化的作用,防止过拟合。"三相"的名字作为几何概念仍然成立,但它并不意味着N=3是普遍最优的具体数字。

实验中还有一个有趣的细节:seed 42这个随机种子在N=3的分布中恰好处于最优端,却在N=1的分布中处于最差端。这说明单一种子的对比实验本身就可能造成误导,任何依赖单一随机初始化来比较两个方案的实验结论都需要多种子验证才能可信。

五、几何结构如何自发维持平衡,以及深度方向的"U形"规律

三相结构的另一个引人注目的发现是它的自我稳定性。研究者在实验8中彻底去掉了所有显式的平衡约束(既没有强制减去各段均值,也没有惩罚不平衡的辅助损失函数),观察模型会不会自己乱掉。结果是:三个相位的均值自发地在训练过程中保持在非常接近的水平,波动幅度约为激活值的1%,模型的质量仅比有显式约束时略差约0.03个困惑度单位。

这种自发平衡可以用物理学中一个叫做"诺特定理"的深刻原理来解释。在物理学中,任何连续的对称性都对应一个守恒量:时间平移对称性对应能量守恒,空间旋转对称性对应角动量守恒。同样的框架被研究者用来解释神经网络的学习:相位旋转层创造了一种旋转对称性,相位归一化创造了一种尺度不变性,两者共同产生了约束三个相位均值的守恒量,使得梯度下降过程自然地维持相位之间的平衡,无需外部强制。

在123M规模的12层模型上,研究者还发现了另一个独特现象:相位旋转层中的可学习角度参数,在经过完整训练后呈现出一种"U形"的深度分布规律。具体来说,每一层的旋转参数初始化时按线性递增排列(第1层的基础角度最小,第12层的基础角度最大),但训练结束后,第0和第1层的参数实际上比初始值变大了(它们想要更大的旋转角度),中间的第2层变化最小(初始值就是模型最想要的),而第3层到第11层的参数则全部比初始值变小了。变化最大的是最深的第11层,其参数偏离初始值的幅度是最稳定的第2层的26倍之多。

这个U形规律揭示了线性初始化策略的内在局限:对于深层网络,合理的深度调度可能是一条类似S形曲线的非线性形状,而不是简单的线性递增。这也构成了研究者在未来工作展望中提出的最重要改进方向之一。

六、从550万参数到1.23亿参数:跨越规模的验证

整个研究链条在5.5M(550万参数)规模的小型模型上完成了大部分探索,但一个关键问题始终悬而未决:这套机制在更大规模的模型上还管用吗?

为此,研究者把同一套经过精简的方案(三相通道划分、加布里埃尔号角注入、相位感知归一化、相位对齐的GQA注意力、相位旋转层)原封不动地扩展到123M参数规模,在WikiText-103数据集(一个标准的英文维基百科语料库,常用于评测语言模型)上训练了3万步,并与一个配置完全相同的标准RoPE模型进行对比。

结果令研究者满意:三相变换器的最终困惑度从17.31降到16.06,降幅7.20%;用另一个叫做BPB(每字节比特数,比困惑度更规范的跨模型对比指标)衡量,则从1.1148降到1.0855,降幅2.62%。收敛速度方面,三相变换器在第14000步时就达到了RoPE基准模型在第27000步才达到的质量,步数比例约为1.93倍。考虑到三相操作每步多花费约17%的计算时间,折算成实际时钟时间,加速比约为1.64倍。

研究者还测试了这个模型与一些公开可用的GPT-2家族模型的对比,不过这个对比本身存在很大的限制条件:GPT-2系列模型在训练前就已经在大量WebText数据上预训练过,而WikiText-103对它们来说是"从未见过的领域",本质上是零样本测试;而三相变换器则是从零开始在WikiText-103上训练的。在这种不对等条件下,三相123M模型超越了零样本评测的GPT-2(124M参数,BPB为1.2215),但输给了在WikiText-103上经过专门微调的GPT-2家族模型(最接近的一个是distilgpt2微调版,120M参数,BPB为0.9993)。研究者对此直言不讳:这场对比的意义在于提供背景参照,而非宣称架构上的全面胜利。真正支撑架构价值的对比,是那个配置完全相同、只有三相结构这一变量不同的RoPE基准模型实验。

七、为什么这套设计在理论上说得通

研究者在论文中花了相当篇幅解释为什么三相结构在数学上有其独特合理性,而不仅仅是一个凑巧管用的经验技巧。

关于120度这个角度,研究者指出这是三等分圆周的唯一方案,具有三个同时成立的数学性质:三个方向之和为零(零和约束);任意两个方向都不完全相反(没有反相关对);三个方向均匀分布,保持最大互相独立性。两等分圆周(180度)会让两个方向彼此对立,形成反相关;四等分圆周(90度)在相同约束下实际上只有两个独立方向(因为对角方向完全相反)。三是在整数范围内唯一同时满足上述三个性质的选择。

这种几何特性在自然界中独立出现多次,这一点让研究者觉得颇有意思。音乐理论中,"增三和弦"(augmented triad)把八度音阶均匀分成三份,是唯一把圆周三等分的和弦,在音乐理论中以其独特的模糊性和对称性而著称。三相电力和增三和弦,本质上都是"把一个周期三等分"这个数学对象的不同实例化形式。研究者还提到,有理论工作(来自Anthropic的"玩具模型"研究)发现,神经网络在二维空间中表示多个独立特征时,会自发地把它们排列成120度间隔的三角形构型,正是因为这是二维空间中打包三个不相关特征的最优方案。三相变换器所做的事,是把这个网络"偶然发现"的几何安排显式地作为架构先验强制注入。

可学习旋转角度为何要初始化为固定值而非随机初始化,也有其道理。如果把120度的固定偏移量设为可学习参数,优化器其实没有任何理由去改变它——120度是唯一使零和约束成立的等间距角度,改变它只会破坏对称性,而没有任何性能收益。实验中将偏移角度设为可学习后,32组配置的平均改变只有0.005个困惑度单位,完全在噪声范围内。这就好比RoPE中的旋转方向没有人会去把它设计成可学习的——优化器坐在一个几何确定的最优点上,无处可去。

说到底,三相变换器带来的启示,不仅仅是一个"让训练快一倍"的技巧,更是一个关于如何把外部知识(无论是电力工程的、音乐理论的还是数学的)变成模型架构约束的方法论示范。研究者从一个负面实验结果(三相单独使用输给RoPE)中看到了正确的问题(它们应该叠加而非竞争),然后通过一系列严格的对照实验,沿着"越简单越好"的原则一步步剪掉所有多余的部分,最终得到一个只有几行额外代码、却在两个规模上都可重复的改进。

这对于任何关注AI开发效率的人来说都有参考意义。并非所有有价值的改进都需要更大的模型、更多的数据、更昂贵的计算——有时候,重新思考信息在模型内部的几何组织方式,能以几乎为零的成本带来可观的收益。当然,这项研究目前只在1.23亿参数的规模上做了完整验证,更大规模(3.5亿到10亿参数级别)是否同样有效,仍需后续实验来回答。有兴趣的读者可以通过arXiv编号2604.14430获取完整论文及实验代码。

Q&A

Q1:三相变换器和普通Transformer相比,实际需要修改多少代码?

A:三相变换器在123M参数规模上只额外增加了1536个可训练参数,约占总参数的0.00124%,代码层面的改动集中在四个地方:在嵌入层注入加布里埃尔号角信号、把RMSNorm替换为按三段分别计算的版本、在每个Transformer块的注意力之后插入相位旋转层、调整注意力头数使其能被3整除。除此之外,模型的其余部分完全不变。

Q2:加布里埃尔号角位置信号和RoPE位置编码会不会相互干扰?

A:两者不会干扰。RoPE在注意力机制内部对查询向量和键向量施加旋转,编码的是词语之间的相对距离;加布里埃尔号角住在"直流隧道"里,这个方向在数学上与三相内容完全正交,编码的是绝对位置(第几个词)。实验中每次评估的零和残差值精确等于理论预测值,从未偏离,直接证明两者互不干扰。

Q3:三相变换器在更大规模的模型(比如几十亿参数)上是否也有效?

A:目前的实验只在5.5M和123M两个规模上完成了系统验证。从5.5M到123M,性能提升幅度从13.3%收窄到7.2%,说明随规模增大提升幅度可能有所下降。但研究者指出,即使在123M规模上,7.2%的困惑度改善仍然以接近零的参数成本实现,因此在更大规模上是否仍然有效是一个开放的实验问题,论文本身未做10亿参数以上的验证。