物理·评论：结构即解释——网络成为科学假设的可计算载体|拓扑|拟合|新论文|科学假设|结构

导语

2024年发布的KAN的核心创新在于将MLP的“节点激活”变为“边激活”，用可学习的B样条函数替代固定激活函数，使网络天然具备函数分解能力。之后原班人马推出的KAN2.0 引入乘法节点和树转换器，从而支持先验知识引入，及通过结构展示变量间的组合逻辑。

关键词：KAN ，可解释性，模块识别，符号推理

郭瑞东丨作者

赵思怡丨审校

论文题目：Kolmogorov-Arnold Networks Meet Science 论文链接：https://journals.aps.org/prx/abstract/10.1103/4t7t-v19l 发表时间：2025年12月17日发表期刊：Physical Review X

KAN2.0如何整合先验科学知识

KAN 2.0框架的核心是“双向协同”（bidirectional synergy），即科学知识注入网络，网络洞察反哺科学（图1）。而使这成可能的，是在KAN中引入乘法节点，从而形成的MultKAN，该结构天然支持乘积运算。

图1：KAN和科学发现的关系

根据Kolmogorov-Arnold定理，理论上仅需加法与单变量函数即可逼近任意多元连续函数，乘法可被隐式编码。但这种“用加法模拟乘法”的路径在拓扑上无法直接体现乘的语义。

图2左上的标准KAN中节点代表求和操作，边承载可学习的单变量函数，右上的MultKAN在标准KAN层之间插入显式的乘法层。该层包含两类节点。加法节点与标准KAN一致直接复制前一层子节点的输出，乘法节点：对前一层的 kk 个子节点执行乘积运算。这一设计使网络获得原生乘法能力，无需通过复杂函数组合间接实现乘积。

图2：MultKAN和原版KAN的对比

图2下半部分对比原版KAN和MultKAN对乘法的表征差异，原版“用加法模拟乘法”的路径在拓扑上无法直接体现乘积语义，且对噪声敏感。MultKAN的学习结果中，网络直接激活单个乘法节点，所有边上的激活函数退化为线性函数，表明无需额外非线性变换。这样网络拓扑本身即表达 x*y 的物理意义。

有了MultKAN，通过作者开源的kanpiler包，能将符号公式（如动能T=½mv²）直接编译为KAN结构，使网络从“物理正确”的初始状态开始学习，这相当于为AI模型引入了先验知识（图3a）。图3b展示了kanpiler在多个物理公式上的实战能力，它使模型从“物理正确”的状态开始学习，而非在随机初始化的参数空间中盲目搜索。

图3：KAN2.0如何将科学知识整合到KAN中

KAN不止能基于已有的先验公式，还能探索未知的变量间关系。具体来看，KAN 2.0采用两种扩展策略（图3c）：

宽度扩展（expand_width）：在指定层横向增加新节点，并添加连接新旧节点的边。
深度扩展（expand_depth）：在网络中插入新层，将原单步变换拆解为多步复合变换。

图中以一个简单KAN（2输入→2中间→1输出）为例，展示扩展后网络如何从“精确但僵化”变为“灵活可塑”。这一设计符合科学发现的官吏，先验公式提供初始假设，而扩展与微调允许网络在数据驱动下修正或超越人类现有认知。

利用KAN 2.0发现科学规律

更激动人心的是反向过程，KAN2.0支持从训练好的KAN中提取科学规律。具体分为三步：

识别哪些输入变量真正影响输出（如发现行星轨道仅由质量与距离决定）；
揭示变量如何组合成模块（如能量守恒体现为动能与势能的加和结构）；
通过符号回归将边上的B样条拟合为数学表达式（如sin(x)、exp(x)）。

在图4a中，对比了原版KAN与MultKAN对节点（变量）重要性的评估，原版KAN识别出的这些活跃信号可能被后续层“静默”，从而对变量的重要性产生误判。KAN 2.0的归因评分采用反向传播式计算，评分函数能正确识别出 x1路径实际无贡献，生成稀疏且物理一致的网络图，其中仅 x2 路径被高亮，与方程的数学本质完全吻合。

通过反向传播式评分，量化每条路径对输出的边际贡献。这接近科学实验中的“干预测试”：若移除某变量，输出变化多大？归因评分正是这种思想的计算实现。

图4：KAN2.0如何通过归因评分和剪枝确定关键变量

在真实科学问题中（如基因组学、气候建模），输入维度常达数百甚至上千，但仅少数变量与目标相关。图4b为包含所有100个变量的KAN与剪枝后得到包含对结果贡献最大的5个变量的KAN。

KAN剪枝的过程，就是在做假设生成。当KAN自动剔除95个变量后，科学家可聚焦于剩余5个变量构建物理模型，加速“数据→理论”的转化。

图5：KAN2.0如何自动得到变量模块

KAN 2.0进行科学发现的第二步是将关键变量模块化。KAN 2.0采用的auto_swap的神经元交换技术，为训练完成的KAN网络中的每层节点随机分配二维坐标 (x,y)，并定义总连接成本，之后迭代式的尝试交换同层任意两节点的坐标，若交换后总连接成本下降则接受，直至收敛（图5上）。该过程不改变网络功能，仅重排节点顺序，却使强连接的节点在空间上聚集，弱连接节点分离，形成肉眼可辨的模块簇。

对比当前多层神经网络MLP中，由于采用固定激活函数（如ReLU）难以直接表达多数投票的非线性阈值特性，被迫用多层组合近似，导致功能模块在参数空间中“弥散编码” （图5下）。

当任务本身具有模块结构时，KAN的边激活架构会自然学习到稀疏连接模式，这意味着功能模块化可自发诱导解剖模块化，科学家能据此从数据中发现系统中存在独立的子模块。识别出的模块可被剪枝或替换为符号公式，实现“神经-符号”混合建模。层次化模块结构还可直接对应物理系统的尺度分离（微观→介观→宏观），为多尺度建模提供网络拓扑依据。

在二维谐振子实验中，KAN自动发现了三个守恒量：x方向能量、y方向能量与角动量。当KAN的某条路径仅连接x与pₓ时，暗示该守恒量仅与x方向运动相关。网络拓扑成了物理对称性的可视化映射。

图6：KAN如何发现功能模块，从而拟合公式

KAN 2.0不仅能拟合函数，更能逐步学习函数内在的层次化结构，从而发现对应的数学公式。图6a定义了功能模块化的三级层次体系，每一级对应特定的数学结构与可计算检测准则。图6b通过两个合成函数，可视化展示了树转换器（tree converter）如何将任意函数递归分解为层次化树结构。在之后的案例中，研究者用KAN 2.0在发现史瓦西黑洞隐藏对称性时，用图6的树转换器可识别出坐标变换的层次结构。

总结

Software 1.0的传统编程，完全依赖先验知识，代表“理性主义”（知识源于先验推理），Software 2.0机器学习代表“经验主义”（知识源于数据归纳），完全依赖从数据中从头挖掘（图7a），前者对应论语中的思而不学则怠，后者对应学而不思则惘，。而KAN 2.0试图融合二者，采用可学习的组件找出可推理的结构。它牺牲部分可学习性（相比MLP需更多参数拟合同等函数），换取可解释性的质变（从“事后解释”到“结构即解释”）。

图7：KAN相比传统程序和机器学习在可解释性与可学习性上的扩展

图7b以帕累托前沿，追问可解释性是否随规模增长而必然衰减？只依赖KAN（厚红线），规模较小时，网络整体可读。但随规模增长，即使每条边单独可解释，组合爆炸导致全局理解困难。如同能读懂每个汉字，却无法理解百万字小说的叙事结构。

“仅靠人类直觉”所能达到的可解释性上限，呈现指数衰减趋势。而通过符号回归（Symbolic regression），模块发现（Modularity discovery）和特征归因（Feature attribution），细红线对应的模型×方法×人类认知"的协同作用可将可解释性边界向外推移。

传统科学哲学认为，理解即获得符号公式；但KAN 2.0指出，理解存在光谱：从识别关键变量，到把握模块关系，再到精确公式。这种分层观更贴近真实科研——生物学家可能无需微分方程，仅凭通路模块就能理解细胞信号传导。

当前XAI（可解释AI）多聚焦于事后解释（post-hoc explanation），如用注意力热力图说明CNN关注图像哪部分。但KAN 2.0倡导的内在可解释性（inherent interpretability）让网络结构本身即承载科学意义。当KAN的边对应物理量间的函数关系，节点对应变量组合，网络不再是黑箱，而成为科学假设的可计算载体。

KAN2.0 将AI从“预测引擎”重塑为“认知伙伴”。未来AI4Science工具或许应具备三重能力：感知数据、操作符号、生成假设。KAN在前两者间架起桥梁，而假设生成可能需要结合大语言模型的推理能力。

论文作者

拓扑学课程：从空间直觉到系统科学

你是否曾思考过：为什么咖啡杯在数学上可以变成甜甜圈？为什么混沌系统中会出现周期轨、可约化结构和“奇怪吸引子”模式？为什么神经网络、量子物理甚至心理结构，都可以从“拓扑”角度理解？

拓扑学不仅是数学的抽象分支，更提供了系统的思维方式，让我们理解连续性、结构不变性乃至复杂系统的整体规律。从欧拉七桥问题到DNA的缠结，从量子场论到思维科学与脑科学，拓扑学思想正在各学科中普遍而深刻地重塑着我们的认知方式。

集智学园联合北京大学博士金威老师开设，课程于11月23日开启，欢迎感兴趣的读者加入。