这项由独立研究者完成的研究以预印本形式发布于2026年4月,论文编号为arXiv:2604.17698,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
部署一个AI语言模型,就像把一名新员工送上岗。在上岗之前,你想知道他能不能按照你的指令行事;上岗之后,你还要持续观察他有没有在悄悄"变质"。这两件事听起来是两个完全不同的管理问题,但这项研究的核心发现是:它们其实根植于同一个问题——这个模型内部的"空间结构"到底有多稳固。
研究者将这套方法命名为"Shesha"(取自印度神话中支撑宇宙的蛇神,象征结构与稳定性),并提出了有监督和无监督两个变体,分别针对上岗前的可控性预测和上岗后的偏移监控。这套框架在横跨数十个模型、数百个实验条件的测试中展现出远超现有方法的表现。
一、先把问题讲清楚:模型为什么会"变脆"或"漂移"
要理解这项研究,先得理解一个关键的背景:现代AI语言模型在内部是用高维"空间"来理解语言的。每一段话、每一个概念,在模型眼中都是这个空间里的一个"点"。意思相近的句子,这些点彼此靠近;意思相反的句子,这些点彼此远离。
研究人员发现,可以通过直接操控这个空间来"操控"模型的行为。比如,找到代表"积极情绪"的方向,然后把模型的内部状态沿着这个方向推一推,模型就会更倾向于输出积极的内容。这种技术被称为"向量引导"或"表示工程",是目前AI可控性研究的前沿方向。
然而,这里有一个隐藏的陷阱。并不是所有模型都能被这样"引导"。有些模型的内部空间结构非常稳固,你轻轻推一下,整个结构如磐石般纹丝不动,但方向上发生了预期的改变;另一些模型的内部空间则像一堆散沙,你一推就散架了,完全无法实现可控的行为调整。更麻烦的是,从外部的分类准确率来看,这两种模型可能表现得一模一样——你根本看不出谁"脆"谁"稳"。
与此同时,还有另一个问题:模型经过二次训练(比如通过人类反馈强化学习,也就是RLHF,或者指令微调)之后,内部空间结构会发生变化。这种变化有时候是有益的调整,有时候却是危险的"漂移"——模型的内部世界已经悄悄重组,但表面上的任务表现还没来得及崩塌。等到外部指标终于下降的时候,问题往往已经积重难返。
这就是这项研究试图解决的两个核心问题:第一,在上岗之前,如何判断一个模型能不能被可靠地引导?第二,模型上岗之后,如何尽早发现它的内部结构正在悄悄"漂移"?
二、理解"几何稳定性":用房子的结构来打比方
整个研究框架的核心概念是"几何稳定性",这个词听起来很抽象,但本质上是在问一个非常直觉化的问题:这栋房子的结构,从不同角度看都是一致的吗?
具体来说,研究者关注的是模型内部空间里,任意两个点之间的"距离关系"。如果把模型对一批文本的理解看作是在一张地图上标注点位,那么这张地图里,每两个点之间都有一个距离。"几何稳定性"问的就是:如果我遮住这张地图的一半信息,用剩下一半重新画一张地图,这两张地图上的距离关系还一致吗?
一致性越高,说明这个空间结构越稳固——信息被冗余地、分散地编码在各个维度里,任何一部分的缺失都不会导致整体结构崩塌。一致性越低,说明这个空间结构越脆弱——关键信息只集中在少数几个维度,稍有扰动就会面目全非。
研究者把这种测量方式称为"特征分割版Shesha"(SheshaFS):把模型的特征维度随机分成两半,分别计算各自的"点对点距离矩阵"(也就是那张"距离地图"),然后看这两张地图的相关性有多高。这个过程会重复30次取平均,以获得稳定的估计。这是无监督的版本,不需要任何标签信息。
而有监督版本的Shesha则更进一步,它不仅问"这张地图内部一致吗",还问"这张地图和任务需要的理想地图一致吗"。研究者设计了四种有监督变体,分别从不同角度衡量模型的内部空间结构与特定任务(比如情感分类、语义推理)之间的对齐程度。
第一种直接将模型的距离矩阵与按照标签构建的"理想距离矩阵"进行相关性计算,衡量模型的空间结构在多大程度上忠实地反映了任务分类。第二种则采用方差比率:计算类别间的变异占总变异的比例,本质上是问"这批数据里,类别差异能解释多少整体差异"。第三种在距离空间中操作,比较类别间的平均距离和类别内的平均距离,类似于统计学中的费舍尔判别比,但操作对象是点对点距离而非投影方差。第四种则通过反复重采样数据,看每次得到的"最优分类方向"是否保持稳定,稳定性高意味着分类结构不是偶然产生的,而是深植于模型的几何结构中。
三、上岗前的考核:几何稳定性能预测模型能不能被引导吗
研究者在三个不同复杂度的任务上测试了这套方法。第一个是人工合成的情感数据集,用组合式语法生成了1000个情感色彩鲜明的句子,设计上刻意避免词汇记忆效应;第二个是经典的SST-2二分类情感数据集;第三个是更难的MNLI三分类自然语言推理数据集。模型范围覆盖了69个(合成任务)或35个(真实任务)主流句子嵌入模型,横跨MiniLM、DistilBERT、MPNet、BERT、RoBERTa、DeBERTa、E5、BGE、GTE、UAE、SimCSE等11个架构家族。
实验设计非常严谨:每次实验将数据严格分为A、B两组,A组用于计算几何稳定性指标,B组用于实际测试引导效果,确保两组之间完全没有信息泄漏。测试过程中,研究者从B组数据的训练子集学习一个逻辑回归探针,提取其权重向量作为"引导方向",然后沿着这个方向对模型的内部表示进行不同幅度的推移,记录测试准确率的最大下降幅度作为"引导效果"的度量。整个流程重复15个随机种子,以确保结果的稳定性。
结果令人印象深刻。有监督版Shesha与引导效果之间的斯皮尔曼相关系数,在合成任务上达到0.894(p值远小于10的负24次方,69个模型),在SST-2上达到0.962(p值远小于10的负20次方,35个模型),在MNLI上达到0.974(p值远小于10的负22次方,35个模型)。换句话说,只需要在A组数据上计算这个几何稳定性指标,就能以接近完美的精度预测这个模型在B组数据上能不能被有效引导——完全不需要实际尝试任何引导操作。
打个比方:一个教室里的学生按照成绩高低坐成两排(类别可分性很好),但如果每次考试结果都会导致座位完全重排(几何稳定性很低),那么你根据今天的座位来预测明天的行为就会完全失效。类别可分性告诉你今天座位分得开,但几何稳定性才告诉你这个座位安排明天还在不在。
负面控制实验进一步确认了这个结论的可靠性。当研究者把标签随机打乱再计算有监督Shesha时,指标直接崩塌到接近零(-0.001),远比随机预期的更低,表明该指标确实在捕捉任务相关的几何信息,而非某种无关的几何噪声。此外,与随机方向相比,真正的引导方向产生的效果在合成任务上是随机方向的10.8倍,SST-2上是2.7倍,MNLI上是1.3倍。边际在缩小,但Shesha始终能区分哪些模型在这个缩小的边际内仍然保持稳定。
在模型排名上,有监督对比学习训练的模型(BGE、E5、GTE家族的大型版本)几乎垄断了最可引导的前列,而无监督版本(unsup-SimCSE、E5-base-unsupervised)和以检索为目标训练的模型(multi-qa系列)则排在末尾。检索模型尤为值得注意——它们往往有不错的分类准确率,但在引导测试中表现糟糕,再次印证了"可分"不等于"可控"。
四、一个关键的反差:无监督稳定性为何在真实任务上彻底失效
这项研究最值得细细品味的发现,是一个看似矛盾的现象:无监督版的Shesha(也就是不需要标签的版本)在合成任务上与引导效果有相当高的相关性(0.77),但一到真实的NLP任务,这个相关性就直接崩塌——SST-2上只有0.10,MNLI上只有0.35,统计学上均不显著。控制了类别可分性之后,残余相关性更是在所有设置下都低于0.10。
这个现象的背后有非常清晰的逻辑解释。在合成数据集里,研究者刻意用组合语法生成句子,使得数据空间的主要变化轴恰好与情感极性对齐。在这种人工构造的理想情况下,"内部结构一致"和"任务对齐"高度重合,所以无监督稳定性碰巧能预测引导效果。
但在真实的自然语言数据里,情况完全不同。一个模型的内部空间里同时编码了无数种信息——语法结构、语义主题、情感色彩、语体风格、句法依存关系……任务相关的信息(比如情感)只占据这个巨大空间的一个小小角落。一个模型可以在整体上结构非常稳固,但专门负责情感的那个小角落却极其脆弱;反过来,一个整体结构略显松散的模型,恰好在情感这个维度上组织得非常清晰有序。
无监督稳定性测量的是整个空间的整体一致性,它根本分不清哪个部分的稳固与任务相关。有监督稳定性则直接盯着任务相关的那个角落来测量,自然能准确预测引导效果。
反过来,当问题变成"模型整体有没有发生漂移"的时候,无监督稳定性恰恰最合适,因为我们需要的正是一个能感知整体结构变化的探测器,而不需要局限于某个特定任务的视角。这种反差不是一个缺陷,而是这套框架最核心的设计逻辑:两个变体各有各的适用范围,恰好形成互补。
五、上岗后的监控:无监督Shesha如何比现有工具更早、更准地发现漂移
在漂移检测实验中,研究者构建了一套全面的基准,覆盖四类实验场景,分别考察漂移检测能力的不同侧面。
第一个场景直接对比真实模型经过指令微调前后的表示变化。研究者选取了23对"基础版/指令版"模型对,横跨Qwen、Llama、SmolLM、SmolLM2、Mistral、StableLM、Gemma、TinyLlama、Pythia、BLOOM、Falcon等11个家族,参数量从1.4亿到70亿不等。对每对模型,分别用四类语义不同的提示词集合(事实性陈述、描述性文字、指令性请求、对话性内容,每类50条)提取最后一层的平均池化表示,然后计算基础版和指令版之间的几何变化量。
结果显示,Shesha检测到的平均漂移为25.1%,而CKA只检测到12.9%,比值约为1.96倍。这个差距在不同模型家族之间差异悬殊:Llama系列的差距最大,Shesha检测到34.0%的变化,CKA只检测到6.5%,差了整整5.23倍;而BLOOM系列的差距最小,两者基本持平(1.14倍)。从提示词类型来看,事实性和描述性提示词引发的检测差异最大(分别为2.37倍和2.28倍),指令性提示词的差异最小(1.44倍),这暗示指令微调确实特别针对指令类输入优化了几何结构,但对其他类型的输入产生了更广泛的重组。
为什么CKA会系统性地低估这些变化?原因在于CKA这个工具的设计原理。CKA计算两个表示空间的相似度时,对主要成分(也就是"最重要的方向")给予很高的权重,对次要成分几乎忽略不计。这个设计在比较两个模型时非常稳健,但代价是:当微调导致的变化主要发生在次要成分(也就是"光谱尾部")时,CKA根本感知不到。Shesha使用的是秩相关,对所有距离关系平等对待,不会因为某些变化发生在"不重要"的维度就视而不见。
第二个场景测试了在受控扰动下三种度量方法的响应曲线,施加的扰动包括高斯噪声(噪声水平从0.01到0.50逐步增加)、量化压缩(INT8和INT4两种精度)以及LoRA微调(秩从1到64,初始化规模从0.001到0.1)。所有指标都随扰动增大而单调递增,符合预期。在高噪声水平(标准差0.5)下,Shesha捕捉到的漂移(71%)比CKA(43%)高出约1.7倍。量化扰动的影响相对温和,INT8导致的Shesha漂移只有2.1%,INT4为6.2%,但对应的精度损失微乎其微。LoRA扰动对精度影响最大——秩64或初始化规模0.1时会导致5到18%的精度下降,而初始化规模从0.001增大到0.1时,Shesha检测到的漂移从0.06%骤增至44.2%,幅度极为剧烈。
第三个场景验证了漂移检测的功能预测效度。研究者对26个句子嵌入模型注入51个级别的高斯噪声,同时测量几何漂移和下游分类准确率。三种度量方法与精度下降的斯皮尔曼相关性非常接近:Shesha为0.927,CKA为0.937,Procrustes为0.935。在15个因果语言模型上的重复实验同样显示出高度一致的结果(三种方法相关系数均在0.90以上)。这说明几何漂移是功能退化的可靠先兆,三种工具在"预测什么"这件事上没有差异,真正的区别在于"什么时候"以及"以多高的误报率"检测到。
第四个场景专门考察早期预警能力。以5%为检测阈值,在26个模型中,Shesha率先检测到漂移的占73%(19/26),CKA率先检测的占0%(0/26),其余27%(7/26)两者同时检测到。在两者出现分歧的所有情况下,Shesha都是胜者。平均检测阈值方面,Shesha在噪声标准差0.123时触发警报,CKA在0.136时才触发——这意味着Shesha平均能在功能开始退化之前,比CKA早捕捉到漂移信号。在LoRA扰动的ROC分析中,Shesha以0.990的AUC位居三种方法之首(Procrustes为0.988,CKA为0.987);在5%假阳性率下,Shesha保持了90.2%的敏感性,而Procrustes则降至85.4%。
然而,说到Procrustes,这里有一个很有意思的权衡。Procrustes方法在绝对意义上是检测最早的(在噪声标准差0.040时就触发警报),但这种超灵敏反应是有代价的。在精度下降不到1%的"稳定区间"里,Procrustes触发了38.7%的误报,而Shesha和CKA的误报率都只有约6.5%,相差整整6倍。在最微小的扰动下(LoRA初始化规模0.001,精度变化仅约0.08%),Procrustes报告了1.50%的漂移,而Shesha只报告了0.04%,膨胀了37倍。
这种过度敏感的原因同样是数学结构上的。Procrustes通过最优旋转来对齐两个表示空间,然后计算对齐后的残差(Frobenius范数)。在高维空间里,哪怕只有轻微的随机扰动,光谱尾部的大量微小噪声累积起来,就会让Frobenius残差显著膨胀——即使这些扰动对模型的实际功能毫无影响。Shesha使用的是距离关系的排名相关,轻微扰动即使改变了具体距离值,只要没有显著打乱距离的相对大小顺序,就不会触发警报。
由此可见,Shesha在敏感性和特异性之间找到了一个恰当的平衡点:比CKA敏感(能更早发现真实漂移),又比Procrustes特异(不会对无害扰动过度反应)。这对于生产环境中的持续监控至关重要——一个不断误报的监控系统,最终只会让运维人员对它失去信任,反而起到反效果。
六、两个工具,一套哲学:部署生命周期的完整覆盖
归根结底,这项研究构建的不仅仅是两个单独的工具,而是一套覆盖模型完整部署生命周期的诊断框架。
上岗之前,给定一个模型和一批带标签的校准数据,运营者可以在完全独立的测试集上计算有监督Shesha,得到一个"可控性预测分数"。分数高,意味着这个模型的几何结构与任务高度对齐,引导干预将会可靠地工作;分数低,意味着不管分类准确率看起来多好,引导尝试大概率会失败甚至适得其反。这个诊断完全不需要实际尝试任何引导操作,也不需要训练任何探针——所需的只是几何计算。
上岗之后,运营者可以持续监控无监督Shesha,不需要任何标签,只需要生产环境中持续流入的实际数据流。一旦Shesha读数开始异常偏离历史基线,就说明模型的内部几何结构已经开始重组,即使下游任务表现还没有明显变化,也应当引起重视和调查。
这两个变体的互补性不是设计上的偶然,而是几何测量本质的必然结果。有监督稳定性问的是"与任务的对齐程度",这是一个需要外部参照(标签)才能回答的问题;无监督稳定性问的是"内部自身的一致程度",这是一个纯粹内禀的问题,不依赖任何外部参照。这两个问题在逻辑上是独立的,在实践中也确实是独立的——研究者在合成和真实数据上都发现,两者的相关性甚至可以接近于零。正因如此,它们才构成了真正互补的诊断对。
研究者还指出了一个更深层的含义:这项工作为所谓的"线性表示假说"提供了一个可量化的可测试版本。线性表示假说认为,语言模型将概念编码为激活空间中稳定的线性方向,这是当前所有引导和激活工程技术的理论基础。但"稳定"这个词以前从来没有被具体化、量化过。有监督Shesha恰好填补了这个空缺:它把"线性结构是否稳固"这个隐含假设变成了一个可以在部署前测量的具体数值,而不是一个必须在实验失败后才能发现的暗坑。
当然,研究者也坦诚地列出了这套方法目前的局限性。现有的引导实验测试的是句子嵌入模型,而非自回归生成模型在推理时的隐层状态,后者的扩展是重要的后续工作。漂移分析使用的是固定的提示词集合,而非模型训练时的实际数据分布。有监督版本仍然需要标签来计算指标,尽管不需要标签来训练模型。Shesha目前是全局性的度量,无法定位几何损伤发生在哪个具体子空间或哪些网络层。这些局限性也自然指向了后续研究的方向:逐层稳定性分析、在线自适应阈值系统、以及与机制可解释性研究的交叉——如果有监督稳定性能识别出支持线性控制的子空间,而机制可解释性能识别出对应特定功能的电路,两者的交叉可能揭示哪些电路是稳固的、哪些是脆弱的。
说到底,判断一个AI模型能不能被可靠控制、以及它有没有开始悄悄变质,一直是工业部署中缺少量化工具的两个薄弱环节。这项研究提供的工具并不复杂,核心操作不过是把距离矩阵分半比较或者与标签矩阵相关——但它捕捉到的信息,恰恰是现有工具系统性忽视的那一部分。对于任何严肃对待AI可靠性的团队来说,这套框架提供了一套在现有工具链上可以直接叠加的补充诊断手段,而且实现成本相当低廉。读者如有兴趣进一步探究,可以通过arXiv编号2604.17698查阅完整论文,同时研究者也在GitHub的prashantcraju/geometric-canary仓库中开放了全部复现代码。
Q&A
Q1:Shesha方法和CKA、Procrustes这些已有工具相比,核心区别是什么?
A:CKA主要关注表示空间里最"重要"的主成分方向,对次要维度的变化视而不见;Procrustes则通过最优旋转对齐后计算残差,对哪怕无害的微小扰动也会过度反应,误报率很高。Shesha使用距离关系的排名相关,对所有点对点的距离关系平等对待,既不会像CKA那样漏掉分散在次要维度的变化,也不会像Procrustes那样被光谱尾部的无害噪声误导,在敏感性和特异性之间取得了更好的平衡。
Q2:有监督Shesha和无监督Shesha分别在什么情况下应该用哪个?
A:有监督Shesha需要标签信息,适合在模型部署之前评估它能不能被有效引导控制,可以作为一种"可控性预测"工具。无监督Shesha不需要任何标签,适合模型上线后的持续监控,用来检测内部几何结构有没有发生漂移。两者的分工非常清晰:有监督版本回答"这个模型能不能按我的意思来",无监督版本回答"这个模型有没有在悄悄变质"。
Q3:为什么无监督Shesha在合成数据上能预测引导效果,但在真实数据上就失效了?
A:在人工合成数据里,句子的主要变化方向恰好与情感极性对齐,所以整体几何稳定性与任务对齐性高度重合。但在真实的自然语言数据里,模型内部空间同时编码了语法、语义、情感、风格等大量信息,任务相关的信息只占一个小子空间。一个模型整体结构可能很稳固,但情感相关的子空间却很脆弱;反之亦然。无监督Shesha测量的是整体稳定性,无法区分哪部分与任务相关,自然无法预测引导效果。有监督Shesha直接比对模型的距离结构与任务标签结构的对齐程度,因此不受这个问题困扰。
热门跟贴