深度Transformer流形中的潜在客体永久性：拓扑相变、自由能原理与重正化群流|原理|拓扑|新论文|流形

深度Transformer流形中的潜在客体永久性：拓扑相变、自由能原理与重正化群流

Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds

https://arxiv.org/pdf/2601.19942

摘要

1 引言

针对 Transformer 模型的可解释性研究 [1] 通常将其潜在空间视为连续的语义场，其中意义以近似线性方向编码 [2,3]。然而，多步推理需要实际上是离散的操作：否定、量化、变量绑定以及组合控制流。各种瓶颈假设——例如意识先验[4] 和类似胶囊的分解 [5]——表明，高层认知需要稀疏、可操作的因子，这些因子的行为类似于潜在的“对象”。

我们研究深度 Transformer 是否自发实现了这种离散化，其机制类似于重整化群 [7]：一种粗粒化流，积分掉短程关联（局部句法），并稳定长程算子（逻辑/语义关系）。与强调浅层特征叠加的论述 [6,8] 不同，我们关注出现推理的深层区，并探究潜在几何是否表现出相变的特征。

核心论点。在足够规模下，深度扮演了隐式冷却计划的角色：注意力变得更加尖锐，自由能降低，协方差谱出现尖峰与间隙，有效维度发生坍缩。我们将临界后的区域解释为“固态”相，在该相中，潜在轨迹集中于支持跨步骤对象持久性的稳定吸引盆（瞬态类对象）附近。

2 预备知识与可观测变量

3 潜在流形的信息几何3.1 由输出分布诱导的 Fisher 度量

3.2 曲率作为层次结构的代理指标

曲率量（例如 Ricci 曲率）度量测地线的汇聚/发散，并可以对表征的层次结构进行编码。虽然我们不假定常曲率，但我们提出以下内容作为一个诊断性假设：

定义 3.1（双曲嵌入假设（诊断性））。当有效潜在几何在相关子空间中表现出负曲率时，深层语义层次结构会得到促进。预期浅层的行为更接近局部欧几里得几何（句法），而深层可能诱导出更负曲率的有效几何（层次化语义）。

4 注意力的热力学：一个自由能原理4.1 Softmax 作为吉布斯分布

5 随机矩阵理论基线与尖峰协方差5.1 作为零模型的 Marchenko–Pastur 分布

5.2 低秩信号与尖峰

一个典型的结构化模型是尖峰协方差形式

注 2.在高维渐近理论中，尖峰模型存在一个检测阈值（BBP 型相变）：当尖峰强度超过某个临界值时，它会在谱上变得可分离，从而将“隐藏”因子转变为“可观测”的特征向量方向 [17]。我们将此作为概念类比：增加模型规模可以将语义因子推过可检测性阈值，表现为涌现的尖峰和秩坍缩。

6 重整化群视角与严格的谱坍缩条件6.1 作为横向收缩的粗粒化

我们现在给出充分的条件下，某个深度区间必然会产生有效维度坍缩，从而将 RG 思想形式化为不相关方向的收缩。

6.2 逻辑可分性蕴含低秩结构（混合模型）

为了将类似逻辑的离散性与谱联系起来，而不假设幂律关系，考虑一个简单但严谨的模型：潜在状态聚集在 k k个原型周围。

8 方法论8.1 模型套件

我们分析一套参数量跨越一个数量级的模型，以区分容量受限行为与涌现现象 [9,10]：

小规模（10亿–30亿参数）：Qwen-2.5-1.5B [11], Gemma-2-2B [12]。
中等规模（80亿–110亿参数）：Llama-3-8B [13]；基于 SOLAR-10.7B 的 110 亿参数类模型 [14]。
大规模（300亿+ 参数）：MiroThinker-30B（面向推理）。

8.2 激活提取与协方差估计

8.3 潜在对象探测与量化

图 1 可视化了这一序参量的微观演化。热力图显示，该相变不仅仅是均值的偏移，更是概率质量的分岔：推理模型发展出一个与低完整性背景分离的独特的高完整性模式（“固态”带），而较小的模型仍然保持有效的单峰分布。

10 讨论10.1 从叠加到正交性约束

叠加可以在有限维度中编码许多特征 [8]。然而，类逻辑操作施加了可分性约束：如果一个表征必须在多步链中可靠地区分互斥的谓词，那么稳定的类区域（吸引盆）就变得有利。定理 6.3 表明，即使是一个简单的类混合模型，也会产生严格的低秩加各向同性结构，从而在不假设任何特定幂律的情况下产生谱间隙和有效秩坍缩。

10.2 瞬态类对象作为动力学对象

我们以同时兼容收缩机制和自由能锐化机制的方式来定义 TCO。

10.3 为什么c0.42可能在跨尺度下保持稳定

11 结论

我们提供了一个扩展的、数学上明确的框架，将大型语言模型中的涌现推理能力与潜在几何中的相变联系起来。我们的贡献包括：(i) 对注意力的热力学变分刻画（自由能最小化）；(ii) 随机矩阵理论基线（Marchenko–Pastur 谱 bulk）以及基于尖峰的结构；(iii) 通过横向收缩实现谱坍缩的充分条件；(iv) 严格的混合模型结果，表明离散的类结构蕴含低秩的信号特征值。在此观点下，瞬态类对象是由类似重整化群的深度流所产生的稳定吸引盆，该深度流在压缩不相关方向的同时，保留了一个低维的语义骨架。

原文链接：https://arxiv.org/pdf/2601.19942