当AI模型"学坏了"或"变脆了"，我们如何提前知道？|ai模型|度量|残差

这项由独立研究者完成的研究以预印本形式发布于2026年4月，论文编号为arXiv:2604.17698，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

部署一个AI语言模型，就像把一名新员工送上岗。在上岗之前，你想知道他能不能按照你的指令行事；上岗之后，你还要持续观察他有没有在悄悄"变质"。这两件事听起来是两个完全不同的管理问题，但这项研究的核心发现是：它们其实根植于同一个问题——这个模型内部的"空间结构"到底有多稳固。

研究者将这套方法命名为"Shesha"（取自印度神话中支撑宇宙的蛇神，象征结构与稳定性），并提出了有监督和无监督两个变体，分别针对上岗前的可控性预测和上岗后的偏移监控。这套框架在横跨数十个模型、数百个实验条件的测试中展现出远超现有方法的表现。

一、先把问题讲清楚：模型为什么会"变脆"或"漂移"

要理解这项研究，先得理解一个关键的背景：现代AI语言模型在内部是用高维"空间"来理解语言的。每一段话、每一个概念，在模型眼中都是这个空间里的一个"点"。意思相近的句子，这些点彼此靠近；意思相反的句子，这些点彼此远离。

研究人员发现，可以通过直接操控这个空间来"操控"模型的行为。比如，找到代表"积极情绪"的方向，然后把模型的内部状态沿着这个方向推一推，模型就会更倾向于输出积极的内容。这种技术被称为"向量引导"或"表示工程"，是目前AI可控性研究的前沿方向。

然而，这里有一个隐藏的陷阱。并不是所有模型都能被这样"引导"。有些模型的内部空间结构非常稳固，你轻轻推一下，整个结构如磐石般纹丝不动，但方向上发生了预期的改变；另一些模型的内部空间则像一堆散沙，你一推就散架了，完全无法实现可控的行为调整。更麻烦的是，从外部的分类准确率来看，这两种模型可能表现得一模一样——你根本看不出谁"脆"谁"稳"。

与此同时，还有另一个问题：模型经过二次训练（比如通过人类反馈强化学习，也就是RLHF，或者指令微调）之后，内部空间结构会发生变化。这种变化有时候是有益的调整，有时候却是危险的"漂移"——模型的内部世界已经悄悄重组，但表面上的任务表现还没来得及崩塌。等到外部指标终于下降的时候，问题往往已经积重难返。

这就是这项研究试图解决的两个核心问题：第一，在上岗之前，如何判断一个模型能不能被可靠地引导？第二，模型上岗之后，如何尽早发现它的内部结构正在悄悄"漂移"？

二、理解"几何稳定性"：用房子的结构来打比方

整个研究框架的核心概念是"几何稳定性"，这个词听起来很抽象，但本质上是在问一个非常直觉化的问题：这栋房子的结构，从不同角度看都是一致的吗？

具体来说，研究者关注的是模型内部空间里，任意两个点之间的"距离关系"。如果把模型对一批文本的理解看作是在一张地图上标注点位，那么这张地图里，每两个点之间都有一个距离。"几何稳定性"问的就是：如果我遮住这张地图的一半信息，用剩下一半重新画一张地图，这两张地图上的距离关系还一致吗？

一致性越高，说明这个空间结构越稳固——信息被冗余地、分散地编码在各个维度里，任何一部分的缺失都不会导致整体结构崩塌。一致性越低，说明这个空间结构越脆弱——关键信息只集中在少数几个维度，稍有扰动就会面目全非。

研究者把这种测量方式称为"特征分割版Shesha"（SheshaFS）：把模型的特征维度随机分成两半，分别计算各自的"点对点距离矩阵"（也就是那张"距离地图"），然后看这两张地图的相关性有多高。这个过程会重复30次取平均，以获得稳定的估计。这是无监督的版本，不需要任何标签信息。

而有监督版本的Shesha则更进一步，它不仅问"这张地图内部一致吗"，还问"这张地图和任务需要的理想地图一致吗"。研究者设计了四种有监督变体，分别从不同角度衡量模型的内部空间结构与特定任务（比如情感分类、语义推理）之间的对齐程度。

第一种直接将模型的距离矩阵与按照标签构建的"理想距离矩阵"进行相关性计算，衡量模型的空间结构在多大程度上忠实地反映了任务分类。第二种则采用方差比率：计算类别间的变异占总变异的比例，本质上是问"这批数据里，类别差异能解释多少整体差异"。第三种在距离空间中操作，比较类别间的平均距离和类别内的平均距离，类似于统计学中的费舍尔判别比，但操作对象是点对点距离而非投影方差。第四种则通过反复重采样数据，看每次得到的"最优分类方向"是否保持稳定，稳定性高意味着分类结构不是偶然产生的，而是深植于模型的几何结构中。

三、上岗前的考核：几何稳定性能预测模型能不能被引导吗

研究者在三个不同复杂度的任务上测试了这套方法。第一个是人工合成的情感数据集，用组合式语法生成了1000个情感色彩鲜明的句子，设计上刻意避免词汇记忆效应；第二个是经典的SST-2二分类情感数据集；第三个是更难的MNLI三分类自然语言推理数据集。模型范围覆盖了69个（合成任务）或35个（真实任务）主流句子嵌入模型，横跨MiniLM、DistilBERT、MPNet、BERT、RoBERTa、DeBERTa、E5、BGE、GTE、UAE、SimCSE等11个架构家族。

实验设计非常严谨：每次实验将数据严格分为A、B两组，A组用于计算几何稳定性指标，B组用于实际测试引导效果，确保两组之间完全没有信息泄漏。测试过程中，研究者从B组数据的训练子集学习一个逻辑回归探针，提取其权重向量作为"引导方向"，然后沿着这个方向对模型的内部表示进行不同幅度的推移，记录测试准确率的最大下降幅度作为"引导效果"的度量。整个流程重复15个随机种子，以确保结果的稳定性。

结果令人印象深刻。有监督版Shesha与引导效果之间的斯皮尔曼相关系数，在合成任务上达到0.894（p值远小于10的负24次方，69个模型），在SST-2上达到0.962（p值远小于10的负20次方，35个模型），在MNLI上达到0.974（p值远小于10的负22次方，35个模型）。换句话说，只需要在A组数据上计算这个几何稳定性指标，就能以接近完美的精度预测这个模型在B组数据上能不能被有效引导——完全不需要实际尝试任何引导操作。

打个比方：一个教室里的学生按照成绩高低坐成两排（类别可分性很好），但如果每次考试结果都会导致座位完全重排（几何稳定性很低），那么你根据今天的座位来预测明天的行为就会完全失效。类别可分性告诉你今天座位分得开，但几何稳定性才告诉你这个座位安排明天还在不在。

负面控制实验进一步确认了这个结论的可靠性。当研究者把标签随机打乱再计算有监督Shesha时，指标直接崩塌到接近零（-0.001），远比随机预期的更低，表明该指标确实在捕捉任务相关的几何信息，而非某种无关的几何噪声。此外，与随机方向相比，真正的引导方向产生的效果在合成任务上是随机方向的10.8倍，SST-2上是2.7倍，MNLI上是1.3倍。边际在缩小，但Shesha始终能区分哪些模型在这个缩小的边际内仍然保持稳定。

在模型排名上，有监督对比学习训练的模型（BGE、E5、GTE家族的大型版本）几乎垄断了最可引导的前列，而无监督版本（unsup-SimCSE、E5-base-unsupervised）和以检索为目标训练的模型（multi-qa系列）则排在末尾。检索模型尤为值得注意——它们往往有不错的分类准确率，但在引导测试中表现糟糕，再次印证了"可分"不等于"可控"。

四、一个关键的反差：无监督稳定性为何在真实任务上彻底失效

这项研究最值得细细品味的发现，是一个看似矛盾的现象：无监督版的Shesha（也就是不需要标签的版本）在合成任务上与引导效果有相当高的相关性（0.77），但一到真实的NLP任务，这个相关性就直接崩塌——SST-2上只有0.10，MNLI上只有0.35，统计学上均不显著。控制了类别可分性之后，残余相关性更是在所有设置下都低于0.10。

这个现象的背后有非常清晰的逻辑解释。在合成数据集里，研究者刻意用组合语法生成句子，使得数据空间的主要变化轴恰好与情感极性对齐。在这种人工构造的理想情况下，"内部结构一致"和"任务对齐"高度重合，所以无监督稳定性碰巧能预测引导效果。

但在真实的自然语言数据里，情况完全不同。一个模型的内部空间里同时编码了无数种信息——语法结构、语义主题、情感色彩、语体风格、句法依存关系……任务相关的信息（比如情感）只占据这个巨大空间的一个小小角落。一个模型可以在整体上结构非常稳固，但专门负责情感的那个小角落却极其脆弱；反过来，一个整体结构略显松散的模型，恰好在情感这个维度上组织得非常清晰有序。

无监督稳定性测量的是整个空间的整体一致性，它根本分不清哪个部分的稳固与任务相关。有监督稳定性则直接盯着任务相关的那个角落来测量，自然能准确预测引导效果。

反过来，当问题变成"模型整体有没有发生漂移"的时候，无监督稳定性恰恰最合适，因为我们需要的正是一个能感知整体结构变化的探测器，而不需要局限于某个特定任务的视角。这种反差不是一个缺陷，而是这套框架最核心的设计逻辑：两个变体各有各的适用范围，恰好形成互补。

五、上岗后的监控：无监督Shesha如何比现有工具更早、更准地发现漂移

在漂移检测实验中，研究者构建了一套全面的基准，覆盖四类实验场景，分别考察漂移检测能力的不同侧面。

第一个场景直接对比真实模型经过指令微调前后的表示变化。研究者选取了23对"基础版/指令版"模型对，横跨Qwen、Llama、SmolLM、SmolLM2、Mistral、StableLM、Gemma、TinyLlama、Pythia、BLOOM、Falcon等11个家族，参数量从1.4亿到70亿不等。对每对模型，分别用四类语义不同的提示词集合（事实性陈述、描述性文字、指令性请求、对话性内容，每类50条）提取最后一层的平均池化表示，然后计算基础版和指令版之间的几何变化量。

结果显示，Shesha检测到的平均漂移为25.1%，而CKA只检测到12.9%，比值约为1.96倍。这个差距在不同模型家族之间差异悬殊：Llama系列的差距最大，Shesha检测到34.0%的变化，CKA只检测到6.5%，差了整整5.23倍；而BLOOM系列的差距最小，两者基本持平（1.14倍）。从提示词类型来看，事实性和描述性提示词引发的检测差异最大（分别为2.37倍和2.28倍），指令性提示词的差异最小（1.44倍），这暗示指令微调确实特别针对指令类输入优化了几何结构，但对其他类型的输入产生了更广泛的重组。

为什么CKA会系统性地低估这些变化？原因在于CKA这个工具的设计原理。CKA计算两个表示空间的相似度时，对主要成分（也就是"最重要的方向"）给予很高的权重，对次要成分几乎忽略不计。这个设计在比较两个模型时非常稳健，但代价是：当微调导致的变化主要发生在次要成分（也就是"光谱尾部"）时，CKA根本感知不到。Shesha使用的是秩相关，对所有距离关系平等对待，不会因为某些变化发生在"不重要"的维度就视而不见。

第二个场景测试了在受控扰动下三种度量方法的响应曲线，施加的扰动包括高斯噪声（噪声水平从0.01到0.50逐步增加）、量化压缩（INT8和INT4两种精度）以及LoRA微调（秩从1到64，初始化规模从0.001到0.1）。所有指标都随扰动增大而单调递增，符合预期。在高噪声水平（标准差0.5）下，Shesha捕捉到的漂移（71%）比CKA（43%）高出约1.7倍。量化扰动的影响相对温和，INT8导致的Shesha漂移只有2.1%，INT4为6.2%，但对应的精度损失微乎其微。LoRA扰动对精度影响最大——秩64或初始化规模0.1时会导致5到18%的精度下降，而初始化规模从0.001增大到0.1时，Shesha检测到的漂移从0.06%骤增至44.2%，幅度极为剧烈。

第三个场景验证了漂移检测的功能预测效度。研究者对26个句子嵌入模型注入51个级别的高斯噪声，同时测量几何漂移和下游分类准确率。三种度量方法与精度下降的斯皮尔曼相关性非常接近：Shesha为0.927，CKA为0.937，Procrustes为0.935。在15个因果语言模型上的重复实验同样显示出高度一致的结果（三种方法相关系数均在0.90以上）。这说明几何漂移是功能退化的可靠先兆，三种工具在"预测什么"这件事上没有差异，真正的区别在于"什么时候"以及"以多高的误报率"检测到。

第四个场景专门考察早期预警能力。以5%为检测阈值，在26个模型中，Shesha率先检测到漂移的占73%（19/26），CKA率先检测的占0%（0/26），其余27%（7/26）两者同时检测到。在两者出现分歧的所有情况下，Shesha都是胜者。平均检测阈值方面，Shesha在噪声标准差0.123时触发警报，CKA在0.136时才触发——这意味着Shesha平均能在功能开始退化之前，比CKA早捕捉到漂移信号。在LoRA扰动的ROC分析中，Shesha以0.990的AUC位居三种方法之首（Procrustes为0.988，CKA为0.987）；在5%假阳性率下，Shesha保持了90.2%的敏感性，而Procrustes则降至85.4%。

然而，说到Procrustes，这里有一个很有意思的权衡。Procrustes方法在绝对意义上是检测最早的（在噪声标准差0.040时就触发警报），但这种超灵敏反应是有代价的。在精度下降不到1%的"稳定区间"里，Procrustes触发了38.7%的误报，而Shesha和CKA的误报率都只有约6.5%，相差整整6倍。在最微小的扰动下（LoRA初始化规模0.001，精度变化仅约0.08%），Procrustes报告了1.50%的漂移，而Shesha只报告了0.04%，膨胀了37倍。

这种过度敏感的原因同样是数学结构上的。Procrustes通过最优旋转来对齐两个表示空间，然后计算对齐后的残差（Frobenius范数）。在高维空间里，哪怕只有轻微的随机扰动，光谱尾部的大量微小噪声累积起来，就会让Frobenius残差显著膨胀——即使这些扰动对模型的实际功能毫无影响。Shesha使用的是距离关系的排名相关，轻微扰动即使改变了具体距离值，只要没有显著打乱距离的相对大小顺序，就不会触发警报。

由此可见，Shesha在敏感性和特异性之间找到了一个恰当的平衡点：比CKA敏感（能更早发现真实漂移），又比Procrustes特异（不会对无害扰动过度反应）。这对于生产环境中的持续监控至关重要——一个不断误报的监控系统，最终只会让运维人员对它失去信任，反而起到反效果。

六、两个工具，一套哲学：部署生命周期的完整覆盖

归根结底，这项研究构建的不仅仅是两个单独的工具，而是一套覆盖模型完整部署生命周期的诊断框架。

上岗之前，给定一个模型和一批带标签的校准数据，运营者可以在完全独立的测试集上计算有监督Shesha，得到一个"可控性预测分数"。分数高，意味着这个模型的几何结构与任务高度对齐，引导干预将会可靠地工作；分数低，意味着不管分类准确率看起来多好，引导尝试大概率会失败甚至适得其反。这个诊断完全不需要实际尝试任何引导操作，也不需要训练任何探针——所需的只是几何计算。

上岗之后，运营者可以持续监控无监督Shesha，不需要任何标签，只需要生产环境中持续流入的实际数据流。一旦Shesha读数开始异常偏离历史基线，就说明模型的内部几何结构已经开始重组，即使下游任务表现还没有明显变化，也应当引起重视和调查。

这两个变体的互补性不是设计上的偶然，而是几何测量本质的必然结果。有监督稳定性问的是"与任务的对齐程度"，这是一个需要外部参照（标签）才能回答的问题；无监督稳定性问的是"内部自身的一致程度"，这是一个纯粹内禀的问题，不依赖任何外部参照。这两个问题在逻辑上是独立的，在实践中也确实是独立的——研究者在合成和真实数据上都发现，两者的相关性甚至可以接近于零。正因如此，它们才构成了真正互补的诊断对。

研究者还指出了一个更深层的含义：这项工作为所谓的"线性表示假说"提供了一个可量化的可测试版本。线性表示假说认为，语言模型将概念编码为激活空间中稳定的线性方向，这是当前所有引导和激活工程技术的理论基础。但"稳定"这个词以前从来没有被具体化、量化过。有监督Shesha恰好填补了这个空缺：它把"线性结构是否稳固"这个隐含假设变成了一个可以在部署前测量的具体数值，而不是一个必须在实验失败后才能发现的暗坑。

当然，研究者也坦诚地列出了这套方法目前的局限性。现有的引导实验测试的是句子嵌入模型，而非自回归生成模型在推理时的隐层状态，后者的扩展是重要的后续工作。漂移分析使用的是固定的提示词集合，而非模型训练时的实际数据分布。有监督版本仍然需要标签来计算指标，尽管不需要标签来训练模型。Shesha目前是全局性的度量，无法定位几何损伤发生在哪个具体子空间或哪些网络层。这些局限性也自然指向了后续研究的方向：逐层稳定性分析、在线自适应阈值系统、以及与机制可解释性研究的交叉——如果有监督稳定性能识别出支持线性控制的子空间，而机制可解释性能识别出对应特定功能的电路，两者的交叉可能揭示哪些电路是稳固的、哪些是脆弱的。

说到底，判断一个AI模型能不能被可靠控制、以及它有没有开始悄悄变质，一直是工业部署中缺少量化工具的两个薄弱环节。这项研究提供的工具并不复杂，核心操作不过是把距离矩阵分半比较或者与标签矩阵相关——但它捕捉到的信息，恰恰是现有工具系统性忽视的那一部分。对于任何严肃对待AI可靠性的团队来说，这套框架提供了一套在现有工具链上可以直接叠加的补充诊断手段，而且实现成本相当低廉。读者如有兴趣进一步探究，可以通过arXiv编号2604.17698查阅完整论文，同时研究者也在GitHub的prashantcraju/geometric-canary仓库中开放了全部复现代码。

Q&A

Q1：Shesha方法和CKA、Procrustes这些已有工具相比，核心区别是什么？

A：CKA主要关注表示空间里最"重要"的主成分方向，对次要维度的变化视而不见；Procrustes则通过最优旋转对齐后计算残差，对哪怕无害的微小扰动也会过度反应，误报率很高。Shesha使用距离关系的排名相关，对所有点对点的距离关系平等对待，既不会像CKA那样漏掉分散在次要维度的变化，也不会像Procrustes那样被光谱尾部的无害噪声误导，在敏感性和特异性之间取得了更好的平衡。

Q2：有监督Shesha和无监督Shesha分别在什么情况下应该用哪个？

A：有监督Shesha需要标签信息，适合在模型部署之前评估它能不能被有效引导控制，可以作为一种"可控性预测"工具。无监督Shesha不需要任何标签，适合模型上线后的持续监控，用来检测内部几何结构有没有发生漂移。两者的分工非常清晰：有监督版本回答"这个模型能不能按我的意思来"，无监督版本回答"这个模型有没有在悄悄变质"。

Q3：为什么无监督Shesha在合成数据上能预测引导效果，但在真实数据上就失效了？

A：在人工合成数据里，句子的主要变化方向恰好与情感极性对齐，所以整体几何稳定性与任务对齐性高度重合。但在真实的自然语言数据里，模型内部空间同时编码了语法、语义、情感、风格等大量信息，任务相关的信息只占一个小子空间。一个模型整体结构可能很稳固，但情感相关的子空间却很脆弱；反之亦然。无监督Shesha测量的是整体稳定性，无法区分哪部分与任务相关，自然无法预测引导效果。有监督Shesha直接比对模型的距离结构与任务标签结构的对齐程度，因此不受这个问题困扰。