2026年新年第一天,国内领先的人工智能公司深度求索(DeepSeek)在预印本平台发布重磅研究论文,提出了名为“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称mHC)的新一代神经网络基础架构,旨在突破当前大规模模型训练的核心瓶颈。尤为引人注目的是,这项前沿研究的前两名核心作者均出身清华大学,展现了该校在AI顶尖人才培养上的持续输出。
核心突破:为AI模型架构装上“智能调节阀”
该研究直指大模型训练的底层挑战。近年来,“超连接”(HC)架构通过拓宽神经网络的信息通道提升了性能,但也带来了训练不稳定、难以扩展和内存消耗大等工业化难题。
DeepSeek提出的mHC架构,被通俗地理解为给信息通道加上了“交通规则”或“智能调节阀”。它通过数学上的流形约束,在保留超连接性能优势的同时,恢复了信息稳定、高效传递的特性。这好比在一条拓宽但水流湍急的河道中设置了智能水闸系统,既保障了通航能力(性能),又防止了决堤风险(不稳定),还节约了维护成本(资源)。这一改进有望显著提升训练稳定性与扩展性,降低大规模AI模型的研发门槛与算力成本,为未来万亿参数乃至更复杂模型(如多模态、智能决策系统)的落地铺平道路。
论文指出,mHC为下一代基础架构演进指明了新方向,并可能重新激发学界对宏观神经网络拓扑结构设计的兴趣。有行业人士评价,此项针对Transformer最基础问题的底层创新,结合DeepSeek此前积累,或预示其将在未来的V4等版本中实现重大更新。
清华力量:论文前两位核心作者毕业于清华
本次研究的三位核心贡献者中,前两位均为清华校友。
解振达(并列第一作者,排名第一):于2023年获得清华大学高等研究院博士学位,研究方向为计算机视觉,曾参与发表Swin Transformer V2、SimMIM等具有影响力的工作,现为DeepSeek深度学习研究员。
韦毅轩(并列第一作者,排名第二):于2020年获清华大学自动化、经管双学士学位,2025年获清华大学高等研究院博士学位。其博士期间合著的Swin Transformer论文曾于2021年获得计算机视觉领域最高荣誉——ICCV马尔奖(Marr Prize)。
过去一年,DeepSeek虽未发布全新代际版本,但持续保持高强度迭代与开源,先后推出DeepSeek-V3.2系列及达到国际奥数金牌水平的数学推理模型。此次在新年首日发布架构层面突破性论文,并以扎实的“清华力量”作为研发先锋,再次展示了其在AI基础研究领域的深厚野心与强大实力。
热门跟贴