kimi17岁研究员，让马斯克印象深刻|jerry|kimi|埃隆_马斯克|张宇|研究员

3月18日凌晨，Kimi创始人杨植麟将会在英伟达2026年度技术大会GTC上发表主题演讲，详细解读Kimi的技术发展路线及下一代模型架构的设计理念。

早在3月16日，月之暗面（Moonshot AI）正式发布技术论文《Attention Residuals》，首次系统披露其下一代大语言模型的核心架构创新——注意力残差技术。该技术针对传统残差连接结构的固有局限提出突破性解决方案，在显著提升训练效率的同时有效降低计算成本，论文发布后迅速引发国际人工智能研究社区的广泛讨论与关注。

特斯拉、SpaceX创始人埃隆·马斯克于论文发布当日即在社交平台X发声，以"Impressive work from Kimi"（令人印象深刻的工作）表达肯定。

前OpenAI研究副总裁、o1系列推理模型的核心贡献者Jerry Tworek在深入研读论文后指出，Kimi的这项技术突破"可能推动深度学习架构的重要演进"，其创新理念有望对未来AI行业发展产生深远影响。

前OpenAI联合创始人Andrej Karpathy亦在社交媒体发文感慨，认为该研究"深化了对注意力机制的理解，为大模型轻量化、高效化发展提供了全新路径"。

这项技术的突破核心，在于对大模型底层架构中残差连接结构的根本性重构。

过去十年间，主流大规模深度学习模型普遍采用"统一求和"的传统残差连接模式。这一模式虽然能够在一定程度上提升深度网络训练的稳定性，但随着模型层数持续增加，浅层关键信息容易被稀释或丢失，造成算力资源的浪费，并导致训练效率下降、稳定性不足等突出问题。针对上述行业共性难题，Kimi研发团队提出的注意力残差方案实现了精准破解：通过让模型每一层选择性关注此前各层的输出，替代传统模式中"盲目统一求和"的信息处理方式，从而实现"按需筛选信息"的精准高效运算。

实测数据验证了该技术的显著成效。

将注意力残差技术应用于Kimi Linear 48B参数模型后，训练效率实现1.25倍的提升，这意味着在达到同等性能表现的前提下，可节省约20%的计算量；与此同时，模型在复杂推理场景中的表现亦获得显著提升，而推理延迟的增幅被控制在不足2%的范围内。这一"降本增效"的技术特性，与当前全球AI大模型领域追求高效化、轻量化的发展趋势高度契合。

这项重要技术成果的背后，是月之暗面团队长期的潜心攻关与协同创新。该研究由Kimi三位联合创始人杨植麟、吴育昕、周昕宇共同带队，数十名研究员参与推进。

值得关注的是，这篇引发国际热议的论文中，共同第一作者名单里出现了一位17岁研究者陈广宇的名字，他与RoPE旋转位置编码提出者苏剑林、Kimi Linear架构第一作者张宇并列署名。

一年前，陈广宇刚开始了解大模型的，是从北京的一场黑客松开始，一路走向硅谷的。

2025年2月，他在此展示“人类第三只机械辅助手”ThirdArm项目，结识评委董科含，后者成为他的创业导师。在董科含指引下，他放弃跨境电商、短视频运营，转向深耕底层技术。彼时不懂Transformer的他，在DeepSeek研究员袁境阳的指导下，借助Gemini研读论文、追踪开源项目，逐步建立认知。

他在社交媒体上分享博客反思时，意外被硅谷一家AI初创公司CEO关注，且通过一项限时通宵实验测试获得录用，暑假前往旧金山实习七周。实习结束后，他回国并在11月加入月之暗面。实际上，正是GitHub上的Flash Linear Attention项目，吸引了他对机器学习的兴趣并被邀请加入Kimi团队。

此次的论文发表让Kimi在经历发展周期的起伏后，重新回归行业焦点中心。早期因战略调整中过早转向C端规模化扩张，相对忽视了基础技术的持续迭代，叠加行业竞争格局的急剧变化，Kimi一度陷入发展低谷。2025年中期，月之暗面完成全面的内部战略复盘，及时调整发展方向，将核心重心重新聚焦于基础模型的研发创新。

经过近一年的技术沉淀与积累，公司于2026年1月发布的Kimi K2.5模型成功登顶Artificial Analysis开源榜，提前向外界彰显了其技术实力的回归；而此次3月发布的注意力残差技术论文，则进一步推动Kimi重回全球AI行业的聚光灯下。

来源：星河商业观察