3月18日凌晨,Kimi创始人杨植麟将会在英伟达2026年度技术大会GTC上发表主题演讲,详细解读Kimi的技术发展路线及下一代模型架构的设计理念。

早在3月16日,月之暗面(Moonshot AI)正式发布技术论文《Attention Residuals》,首次系统披露其下一代大语言模型的核心架构创新——注意力残差技术。该技术针对传统残差连接结构的固有局限提出突破性解决方案,在显著提升训练效率的同时有效降低计算成本,论文发布后迅速引发国际人工智能研究社区的广泛讨论与关注。

特斯拉、SpaceX创始人埃隆·马斯克于论文发布当日即在社交平台X发声,以"Impressive work from Kimi"(令人印象深刻的工作)表达肯定。

打开网易新闻 查看精彩图片

前OpenAI研究副总裁、o1系列推理模型的核心贡献者Jerry Tworek在深入研读论文后指出,Kimi的这项技术突破"可能推动深度学习架构的重要演进",其创新理念有望对未来AI行业发展产生深远影响。

打开网易新闻 查看精彩图片

前OpenAI联合创始人Andrej Karpathy亦在社交媒体发文感慨,认为该研究"深化了对注意力机制的理解,为大模型轻量化、高效化发展提供了全新路径"。

打开网易新闻 查看精彩图片

这项技术的突破核心,在于对大模型底层架构中残差连接结构的根本性重构。

过去十年间,主流大规模深度学习模型普遍采用"统一求和"的传统残差连接模式。这一模式虽然能够在一定程度上提升深度网络训练的稳定性,但随着模型层数持续增加,浅层关键信息容易被稀释或丢失,造成算力资源的浪费,并导致训练效率下降、稳定性不足等突出问题。针对上述行业共性难题,Kimi研发团队提出的注意力残差方案实现了精准破解:通过让模型每一层选择性关注此前各层的输出,替代传统模式中"盲目统一求和"的信息处理方式,从而实现"按需筛选信息"的精准高效运算。

实测数据验证了该技术的显著成效。

将注意力残差技术应用于Kimi Linear 48B参数模型后,训练效率实现1.25倍的提升,这意味着在达到同等性能表现的前提下,可节省约20%的计算量;与此同时,模型在复杂推理场景中的表现亦获得显著提升,而推理延迟的增幅被控制在不足2%的范围内。这一"降本增效"的技术特性,与当前全球AI大模型领域追求高效化、轻量化的发展趋势高度契合。

这项重要技术成果的背后,是月之暗面团队长期的潜心攻关与协同创新。该研究由Kimi三位联合创始人杨植麟、吴育昕、周昕宇共同带队,数十名研究员参与推进。

值得关注的是,这篇引发国际热议的论文中,共同第一作者名单里出现了一位17岁研究者陈广宇的名字,他与RoPE旋转位置编码提出者苏剑林、Kimi Linear架构第一作者张宇并列署名。

打开网易新闻 查看精彩图片

一年前,陈广宇刚开始了解大模型的,是从北京的一场黑客松开始,一路走向硅谷的。

2025年2月,他在此展示“人类第三只机械辅助手”ThirdArm项目,结识评委董科含,后者成为他的创业导师。在董科含指引下,他放弃跨境电商、短视频运营,转向深耕底层技术。彼时不懂Transformer的他,在DeepSeek研究员袁境阳的指导下,借助Gemini研读论文、追踪开源项目,逐步建立认知。

他在社交媒体上分享博客反思时,意外被硅谷一家AI初创公司CEO关注,且通过一项限时通宵实验测试获得录用,暑假前往旧金山实习七周。实习结束后,他回国并在11月加入月之暗面。实际上,正是GitHub上的Flash Linear Attention项目,吸引了他对机器学习的兴趣并被邀请加入Kimi团队。

此次的论文发表让Kimi在经历发展周期的起伏后,重新回归行业焦点中心。早期因战略调整中过早转向C端规模化扩张,相对忽视了基础技术的持续迭代,叠加行业竞争格局的急剧变化,Kimi一度陷入发展低谷。2025年中期,月之暗面完成全面的内部战略复盘,及时调整发展方向,将核心重心重新聚焦于基础模型的研发创新。

经过近一年的技术沉淀与积累,公司于2026年1月发布的Kimi K2.5模型成功登顶Artificial Analysis开源榜,提前向外界彰显了其技术实力的回归;而此次3月发布的注意力残差技术论文,则进一步推动Kimi重回全球AI行业的聚光灯下。

来源:星河商业观察