深度Transformer流形中的潜在客体永久性:拓扑相变、自由能原理与重正化群流

Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds

https://arxiv.org/pdf/2601.19942

打开网易新闻 查看精彩图片

摘要

打开网易新闻 查看精彩图片

1 引言

针对 Transformer 模型的可解释性研究 [1] 通常将其潜在空间 视为连续的语义场,其中意义以近似线性方向编码 [2,3]。然而,多步推理需要实际上是离散的操作:否定、量化、变量绑定以及组合控制流。各种瓶颈假设——例如意识先验[4] 和类似胶囊的分解 [5]——表明,高层认知需要稀疏、可操作的因子,这些因子的行为类似于潜在的“对象”。

我们研究深度 Transformer 是否自发实现了这种离散化,其机制类似于重整化群 [7]:一种粗粒化流,积分掉短程关联(局部句法),并稳定长程算子(逻辑/语义关系)。与强调浅层特征叠加的论述 [6,8] 不同,我们关注出现推理的深层区,并探究潜在几何是否表现出相变的特征。

核心论点。在足够规模下,深度扮演了隐式冷却计划的角色:注意力变得更加尖锐,自由能降低,协方差谱出现尖峰与间隙,有效维度发生坍缩。我们将临界后的区域解释为“固态”相,在该相中,潜在轨迹集中于支持跨步骤对象持久性的稳定吸引盆(瞬态类对象)附近。

2 预备知识与可观测变量

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 潜在流形的信息几何3.1 由输出分布诱导的 Fisher 度量

打开网易新闻 查看精彩图片

3.2 曲率作为层次结构的代理指标

曲率量(例如 Ricci 曲率)度量测地线的汇聚/发散,并可以对表征的层次结构进行编码。虽然我们不假定常曲率,但我们提出以下内容作为一个诊断性假设

定义 3.1(双曲嵌入假设(诊断性))。当有效潜在几何在相关子空间中表现出负曲率时,深层语义层次结构会得到促进。预期浅层的行为更接近局部欧几里得几何(句法),而深层可能诱导出更负曲率的有效几何(层次化语义)。

打开网易新闻 查看精彩图片

4 注意力的热力学:一个自由能原理4.1 Softmax 作为吉布斯分布

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5 随机矩阵理论基线与尖峰协方差5.1 作为零模型的 Marchenko–Pastur 分布

打开网易新闻 查看精彩图片

5.2 低秩信号与尖峰

一个典型的结构化模型是尖峰协方差形式

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

注 2.在高维渐近理论中,尖峰模型存在一个检测阈值(BBP 型相变):当尖峰强度超过某个临界值时,它会在谱上变得可分离,从而将“隐藏”因子转变为“可观测”的特征向量方向 [17]。我们将此作为概念类比:增加模型规模可以将语义因子推过可检测性阈值,表现为涌现的尖峰和秩坍缩。

6 重整化群视角与严格的谱坍缩条件6.1 作为横向收缩的粗粒化

我们现在给出充分的条件下,某个深度区间必然会产生有效维度坍缩,从而将 RG 思想形式化为不相关方向的收缩。

打开网易新闻 查看精彩图片

6.2 逻辑可分性蕴含低秩结构(混合模型)

为了将类似逻辑的离散性与谱联系起来,而不假设幂律关系,考虑一个简单但严谨的模型:潜在状态聚集在 k k个原型周围。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

8 方法论8.1 模型套件

我们分析一套参数量跨越一个数量级的模型,以区分容量受限行为与涌现现象 [9,10]:

  • 小规模(10亿–30亿参数):Qwen-2.5-1.5B [11], Gemma-2-2B [12]。

  • 中等规模(80亿–110亿参数):Llama-3-8B [13];基于 SOLAR-10.7B 的 110 亿参数类模型 [14]。

  • 大规模(300亿+ 参数):MiroThinker-30B(面向推理)。

8.2 激活提取与协方差估计

打开网易新闻 查看精彩图片

8.3 潜在对象探测与量化

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 1 可视化了这一序参量的微观演化。热力图显示,该相变不仅仅是均值的偏移,更是概率质量的分岔:推理模型发展出一个与低完整性背景分离的独特的高完整性模式(“固态”带),而较小的模型仍然保持有效的单峰分布。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

10 讨论10.1 从叠加到正交性约束

叠加可以在有限维度中编码许多特征 [8]。然而,类逻辑操作施加了可分性约束:如果一个表征必须在多步链中可靠地区分互斥的谓词,那么稳定的类区域(吸引盆)就变得有利。定理 6.3 表明,即使是一个简单的类混合模型,也会产生严格的低秩加各向同性结构,从而在不假设任何特定幂律的情况下产生谱间隙和有效秩坍缩。

10.2 瞬态类对象作为动力学对象

我们以同时兼容收缩机制和自由能锐化机制的方式来定义 TCO。

打开网易新闻 查看精彩图片

10.3 为什么c0.42可能在跨尺度下保持稳定

打开网易新闻 查看精彩图片

11 结论

我们提供了一个扩展的、数学上明确的框架,将大型语言模型中的涌现推理能力与潜在几何中的相变联系起来。我们的贡献包括:(i) 对注意力的热力学变分刻画(自由能最小化);(ii) 随机矩阵理论基线(Marchenko–Pastur 谱 bulk)以及基于尖峰的结构;(iii) 通过横向收缩实现谱坍缩的充分条件;(iv) 严格的混合模型结果,表明离散的类结构蕴含低秩的信号特征值。在此观点下,瞬态类对象是由类似重整化群的深度流所产生的稳定吸引盆,该深度流在压缩不相关方向的同时,保留了一个低维的语义骨架。

原文链接:https://arxiv.org/pdf/2601.19942