打开网易新闻 查看精彩图片

导语

符号回归在现代科学研究中扮演着至关重要的角色,因为它能够从数据中发现简洁且可解释的数学表达式。一个关键挑战在于,如何在无限的搜索空间中寻找简约且可泛化的数学公式,同时还要拟合训练数据。现有的算法在处理复杂性问题时,十多年来一直面临着精度和效率的关键瓶颈,这从根本上阻碍了符号回归在跨学科领域科学探索中的应用步伐。为此,研究者们引入了并行符号枚举(Parallel Symbolic Enumeration, PSE),以高效地从有限数据中提炼出通用的数学表达式。实验表明,与最先进的基线算法相比,PSE在超过200个合成和实验问题集上实现了更高的精度和更快的计算速度。PSE代表了在数据驱动的、符号化可解释模型的发现方面,向更精确和更高效迈出了一步,并提高了符号学习的可扩展性。

关键词:并行符号枚举,符号回归(Symbolic Regression, SR),人工智能(Artificial Intelligence, AI),图形处理器 (Graphics Processing Unit, GPU) 并行计算

王璇丨作者

赵思怡丨审校

打开网易新闻 查看精彩图片

论文题目:Discovering physical laws with parallel symbolic enumeration 论文链接:https://www.nature.com/articles/s43588-025-00904-8 发表时间:2025年11月21日 论文来源:Nature Computational Science

引言:科学发现的“罗塞塔石碑”——符号回归

几个世纪以来,科学发现日益依赖数据驱动。符号回归(SR)处于这一趋势前沿,其核心目标是从观测数据中自动提取可解释的数学表达式,且无需预先假设函数形式,推动天文学、材料科学及物理定律发现等多个领域进步。

然而,SR面临“组合爆炸”的根本挑战。现有主流方法各存局限:演化计算(如GP)可扩展性不足,稀疏回归(如SINDy)受限于预设函数库,深度学习依赖主观阈值,MCTS则搜索效率受限。由于SR本质上是NP难问题,传统方法独立评估表达式导致效率低下,提升评估效率成为关键。为此,发表于《自然·计算科学》的这篇文章提出了并行符号枚举(PSE)框架,旨在通过根本性改变搜索范式来突破上述瓶颈。

核心创新:PSE如何打破瓶颈?

PSE模型的核心是一个并行符号回归网络(PSRN),从对候选表达式进行独立、顺序评估,转向一个并行化、共享计算的框架。它的关键创新在于两点:

  1. 共享子树评估:在SR过程中,许多候选表达式共享相同的子树。传统方法会为每个表达式单独计算这个子树的数值,造成大量冗余。PSRN则能自动识别这些公共子树,并仅计算一次,然后将结果共享给所有需要它的更复杂表达式,从而避免了重复计算。

  2. GPU大规模并行计算:PSRN的架构天生适合并行化。它被设计为在GPU上运行,能够同时对数以亿计的候选表达式进行并行评估。通过利用GPU的数千个核心,PSRN可以在短短几秒钟内完成海量表达式的数值计算和误差评估。

这两项技术的协同作用,使得在表达式评估环节,效率提升了高达四个数量级。

打开网易新闻 查看精彩图片

图1. 提出的PSE模型概述。

性能验证:PSE有多能打?

研究团队在超过200个问题上验证了PSE的有效性。在标准SR基准测试中,PSE在符号恢复率与计算速度上均全面领先。在16个混沌系统的控制方程发现任务中,即便在10%噪声干扰下,PSE仍展现出最高的恢复率与鲁棒性在实际应用层面,PSE成功从机电系统数据中发现了简洁准确的动力学方程,并在经典的湍流摩擦(Nikuradse)数据上找到了更优的符号表达式。最为突出的是,在一个包含50个变量的高维噪声合成问题中,PSE实现了40%的恢复率,而顶尖基线方法的恢复率为0%,这证明了其强大的可扩展性与特征选择能力。

打开网易新闻 查看精彩图片

图2. 通过实验数据揭示基础物理定律。

未来展望:通往更智能的科学发现

展望未来,PSE的发展将在多个维度持续进化:通过与uDSR等集成式SR方法融合,结合预训练、深度SR与稀疏回归提升性能;引入特征选择预处理,聚焦关键变量以增强高维问题可扩展性;优化令牌生成策略与计算后端,提升搜索智能与硬件利用率;融入物理量纲等先验知识,以加速收敛并节约算力。PSE通过GPU并行计算与层次化智能搜索的融合,突破了SR领域长期存在的“效率-精度”瓶颈,为从混沌系统解析到工程规律挖掘的数据驱动科学发现提供了强大新工具,其卓越性能已展现出成为跨学科科研基础平台的潜力,未来将持续推动科学发现的自动化与高效化。

复杂系统自动建模读书会

“复杂世界,简单规则。”

集智俱乐部联合复旦大学智能复杂体系实验室青年研究员朱群喜、浙江大学百人计划研究员李樵风、清华大学电子工程系数据科学与智能实验室博士后研究员丁璟韬、美国东北大学物理系Albert-László Barabási指导的博士后高婷婷、北京大学博雅博士后曹文祺、复旦大学数学科学学院应用数学方向博士研究生赵伯林、北京师范大学系统科学学院博士研究生牟牧云,共同发起。

读书会将于9月5日起每周四晚上20:00-22:00进行,探讨四个核心模块:数据驱动的复杂系统建模、复杂网络结构推断、具有可解释性的复杂系统推断(动力学+网络结构)、应用-超材料设计和城市系统,通过重点讨论75篇经典、前沿的重要文献,从黑盒(数据驱动)到白盒(可解释性),逐步捕捉系统的“本质”规律,帮助大家更好的认识、理解、预测、控制、设计复杂系统,为相关领域的研究和应用提供洞见。欢迎感兴趣的朋友报名参与!

详情请见:

1.

2.

3.

4.

5.

6.

7.

8.

9.