导语
2024年发布的KAN的核心创新在于将MLP的“节点激活”变为“边激活”,用可学习的B样条函数替代固定激活函数,使网络天然具备函数分解能力。之后原班人马推出的KAN2.0 引入乘法节点和树转换器,从而支持先验知识引入,及通过结构展示变量间的组合逻辑。
关键词:KAN ,可解释性,模块识别,符号推理
郭瑞东丨作者
赵思怡丨审校
论文题目:Kolmogorov-Arnold Networks Meet Science 论文链接:https://journals.aps.org/prx/abstract/10.1103/4t7t-v19l 发表时间:2025年12月17日 发表期刊:Physical Review X
KAN2.0如何整合先验科学知识
KAN 2.0框架的核心是“双向协同”(bidirectional synergy),即科学知识注入网络,网络洞察反哺科学(图1)。而使这成可能的,是在KAN中引入乘法节点,从而形成的MultKAN,该结构天然支持乘积运算。
图1:KAN和科学发现的关系
根据Kolmogorov-Arnold定理,理论上仅需加法与单变量函数即可逼近任意多元连续函数,乘法可被隐式编码。但这种“用加法模拟乘法”的路径在拓扑上无法直接体现乘的语义。
图2左上的标准KAN中节点代表求和操作,边承载可学习的单变量函数,右上的MultKAN在标准KAN层之间插入显式的乘法层。该层包含两类节点。加法节点与标准KAN一致直接复制前一层子节点的输出,乘法节点:对前一层的 kk 个子节点执行乘积运算。这一设计使网络获得原生乘法能力,无需通过复杂函数组合间接实现乘积。
图2:MultKAN和原版KAN的对比
图2下半部分对比原版KAN和MultKAN对乘法的表征差异,原版“用加法模拟乘法”的路径在拓扑上无法直接体现乘积语义,且对噪声敏感。MultKAN的学习结果中,网络直接激活单个乘法节点,所有边上的激活函数退化为线性函数,表明无需额外非线性变换。这样网络拓扑本身即表达 x*y 的物理意义。
有了MultKAN,通过作者开源的kanpiler包,能将符号公式(如动能T=½mv²)直接编译为KAN结构,使网络从“物理正确”的初始状态开始学习,这相当于为AI模型引入了先验知识(图3a)。图3b展示了kanpiler在多个物理公式上的实战能力,它使模型从“物理正确”的状态开始学习,而非在随机初始化的参数空间中盲目搜索。
图3:KAN2.0如何将科学知识整合到KAN中
KAN不止能基于已有的先验公式,还能探索未知的变量间关系。具体来看,KAN 2.0采用两种扩展策略(图3c):
宽度扩展(expand_width):在指定层横向增加新节点,并添加连接新旧节点的边。
深度扩展(expand_depth):在网络中插入新层,将原单步变换拆解为多步复合变换。
图中以一个简单KAN(2输入→2中间→1输出)为例,展示扩展后网络如何从“精确但僵化”变为“灵活可塑”。这一设计符合科学发现的官吏,先验公式提供初始假设,而扩展与微调允许网络在数据驱动下修正或超越人类现有认知。
利用KAN 2.0发现科学规律
更激动人心的是反向过程,KAN2.0支持从训练好的KAN中提取科学规律。具体分为三步:
识别哪些输入变量真正影响输出(如发现行星轨道仅由质量与距离决定);
揭示变量如何组合成模块(如能量守恒体现为动能与势能的加和结构);
通过符号回归将边上的B样条拟合为数学表达式(如sin(x)、exp(x))。
在图4a中,对比了原版KAN与MultKAN对节点(变量)重要性的评估,原版KAN识别出的这些活跃信号可能被后续层“静默”,从而对变量的重要性产生误判。KAN 2.0的归因评分采用反向传播式计算,评分函数能正确识别出 x1路径实际无贡献,生成稀疏且物理一致的网络图,其中仅 x2 路径被高亮,与方程的数学本质完全吻合。
通过反向传播式评分,量化每条路径对输出的边际贡献。这接近科学实验中的“干预测试”:若移除某变量,输出变化多大?归因评分正是这种思想的计算实现。
图4:KAN2.0如何通过归因评分和剪枝确定关键变量
在真实科学问题中(如基因组学、气候建模),输入维度常达数百甚至上千,但仅少数变量与目标相关。图4b为包含所有100个变量的KAN与剪枝后得到包含对结果贡献最大的5个变量的KAN。
KAN剪枝的过程,就是在做假设生成。当KAN自动剔除95个变量后,科学家可聚焦于剩余5个变量构建物理模型,加速“数据→理论”的转化。
图5:KAN2.0如何自动得到变量模块
KAN 2.0进行科学发现的第二步是将关键变量模块化。KAN 2.0采用的auto_swap的神经元交换技术,为训练完成的KAN网络中的每层节点随机分配二维坐标 (x,y),并定义总连接成本 ,之后迭代式的尝试交换同层任意两节点的坐标,若交换后总连接成本下降则接受,直至收敛(图5上)。该过程不改变网络功能,仅重排节点顺序,却使强连接的节点在空间上聚集,弱连接节点分离,形成肉眼可辨的模块簇 。
对比当前多层神经网络MLP中,由于采用固定激活函数(如ReLU)难以直接表达多数投票的非线性阈值特性,被迫用多层组合近似,导致功能模块在参数空间中“弥散编码” (图5下)。
当任务本身具有模块结构时,KAN的边激活架构会自然学习到稀疏连接模式,这意味着功能模块化可自发诱导解剖模块化,科学家能据此从数据中发现系统中存在独立的子模块。识别出的模块可被剪枝或替换为符号公式,实现“神经-符号”混合建模。层次化模块结构还可直接对应物理系统的尺度分离(微观→介观→宏观),为多尺度建模提供网络拓扑依据。
在二维谐振子实验中,KAN自动发现了三个守恒量:x方向能量、y方向能量与角动量。当KAN的某条路径仅连接x与pₓ时,暗示该守恒量仅与x方向运动相关。网络拓扑成了物理对称性的可视化映射。
图6:KAN如何发现功能模块,从而拟合公式
KAN 2.0不仅能拟合函数,更能逐步学习函数内在的层次化结构,从而发现对应的数学公式。图6a定义了功能模块化的三级层次体系,每一级对应特定的数学结构与可计算检测准则。图6b通过两个合成函数,可视化展示了树转换器(tree converter)如何将任意函数递归分解为层次化树结构。在之后的案例中,研究者用KAN 2.0在发现史瓦西黑洞隐藏对称性时,用图6的树转换器可识别出坐标变换的层次结构。
总结
Software 1.0的传统编程,完全依赖先验知识,代表“理性主义”(知识源于先验推理),Software 2.0机器学习代表“经验主义”(知识源于数据归纳),完全依赖从数据中从头挖掘(图7a),前者对应论语中的思而不学则怠,后者对应学而不思则惘,。而KAN 2.0试图融合二者,采用可学习的组件找出可推理的结构。它牺牲部分可学习性(相比MLP需更多参数拟合同等函数),换取可解释性的质变(从“事后解释”到“结构即解释”)。
图7:KAN相比传统程序和机器学习在可解释性与可学习性上的扩展
图7b以帕累托前沿,追问可解释性是否随规模增长而必然衰减? 只依赖KAN(厚红线),规模较小时,网络整体可读。但随规模增长,即使每条边单独可解释,组合爆炸导致全局理解困难。如同能读懂每个汉字,却无法理解百万字小说的叙事结构。
“仅靠人类直觉”所能达到的可解释性上限,呈现指数衰减趋势。而通过符号回归(Symbolic regression),模块发现(Modularity discovery)和特征归因(Feature attribution),细红线对应的模型×方法×人类认知"的协同作用可将可解释性边界向外推移。
传统科学哲学认为,理解即获得符号公式;但KAN 2.0指出,理解存在光谱:从识别关键变量,到把握模块关系,再到精确公式。这种分层观更贴近真实科研——生物学家可能无需微分方程,仅凭通路模块就能理解细胞信号传导。
当前XAI(可解释AI)多聚焦于事后解释(post-hoc explanation),如用注意力热力图说明CNN关注图像哪部分。但KAN 2.0倡导的内在可解释性(inherent interpretability)让网络结构本身即承载科学意义。当KAN的边对应物理量间的函数关系,节点对应变量组合,网络不再是黑箱,而成为科学假设的可计算载体。
KAN2.0 将AI从“预测引擎”重塑为“认知伙伴”。未来AI4Science工具或许应具备三重能力:感知数据、操作符号、生成假设。KAN在前两者间架起桥梁,而假设生成可能需要结合大语言模型的推理能力。
论文作者
拓扑学课程:从空间直觉到系统科学
你是否曾思考过:为什么咖啡杯在数学上可以变成甜甜圈?为什么混沌系统中会出现周期轨、可约化结构和“奇怪吸引子”模式?为什么神经网络、量子物理甚至心理结构,都可以从“拓扑”角度理解?
拓扑学不仅是数学的抽象分支,更提供了系统的思维方式,让我们理解连续性、结构不变性乃至复杂系统的整体规律。从欧拉七桥问题到DNA的缠结,从量子场论到思维科学与脑科学,拓扑学思想正在各学科中普遍而深刻地重塑着我们的认知方式。
集智学园联合北京大学博士金威老师开设,课程于11月23日开启,欢迎感兴趣的读者加入。
详情请见:
1.
2.
3.
4.
5.
6.
7.
热门跟贴