独家丨腾讯混元3幕后：重构架构，姚顺雨一场非典型的「逆袭」

雷峰网

2026-04-25 13:34 ·北京 ·雷锋网官方网易号

“抛弃「花里胡哨」，姚顺雨要带着混元回到最「基本」的路上。”

作者丨董子博

编辑丨林觉民

早在三月，提起马上要上线的混元 3.0，在腾讯混元工作的同学左飞就对雷峰网说过：“这次混元的新版本，其实团队预期不算太高。”

一个月后，4 月 23 日晚，Hy3 的 Preview 版本正式发布，同步开源，向世界展示自己最真实的样子。雷峰网独家获悉，Hy3 规模更大、功能更全面的闭源旗舰版本将在五六月份发布，给人留下不少想象空间。

（腾讯混元的新进展，雷峰网正在持续关注，欢迎添加作者微信：william_dong，交流信息，探讨认知。）

说起来，腾讯 Hy3 Preview 的发布也有点“生不逢时”——前有 GPT 5.5 举世围观，后有 DeepSeek V4 重磅回归，被夹在中间的混元，还是在“9.7 减去 9.11”的小学数学题上犯了难，在社交平台上引起了一阵围观。

“其实 GPT 和 DeepSeek 的发布日期在我们内部也不是什么秘密，但为什么选择在这个时候和他们一起发布，我也不太清楚。”左飞对雷峰网如是说

Hy3 之于 4 个月前的上一个版本究竟有哪些变化？在混元内部的同学邰萝对雷峰网分享道：“Hy3 基本上把之前的架构重构了一遍，但简单来来说，是回到了‘基本’。”

一直以来，业界的“基本”，是使用 Transformer 架构和 Full Attention 等一系列被验证了的技术方案，如 OpenAI 实践的一样，少有花里胡哨的操作，核心是把 DATA 做到极致；

而 Hy2 的时期，腾讯却尝试了不少架构上的创新——比如 Multi-Token Prediction、Mamba 等方案，反而把数据和 Infra 的“基础题”放下了。

到了 Hy3，姚顺雨则主导模型回到“基本”，重新使用经过验证的共识架构。而过去没绕过，今天也不可能绕过的数据和 Infra 问题，则成了必须下足的“苦功夫”。

腾讯同学雷瓯对雷峰网说，在过去，不少 SFT 数据没有经过去重，重复、冗余的数据甚至能达到上千万条，尤其是工期紧张的时候，数据的优先级就被排在了很后面。

姚顺雨来到腾讯，拉起了一个 20 余人的预训练数据团队，专门做数据审核“最脏最累”的工作，几个月内把冗余的 SFT 数据控制在了一万多条的规模下。

而在 Infra 的角度，姚顺雨也拎起了一个团队，重构过去腾讯 RL 的管线，让万卡集群能够跑得稳定、安全，有应对突发情况的能力。

之前，在腾讯 TEG，内部使用的基础设施是一个名叫“太极”的机器学习平台。近期，太极平台的 Feature 也在以一到两周一次的速度进行更新，做了不少迭代工作。

于是，在腾讯内部的 Benchmark 上，混元的性能可以达到 Kimi 2.5 的水平，超越了 MiniMax，仅次于 Gemini 和 Seed 2.0。

在混元体系的改造中，姚顺雨扮演的角色不仅是一个技术领袖：除了数据和 Infra 进行了大量重构，混元的组织和人员也完成了不小的调整。

组织上，混元被分为了预训练、后训练、Baseline Infra、模型评估和 Frontier 五大板块，除 Frontier 更偏技术探索和预研以外，四个板块十几个组，以十分扁平的结构，几乎全部投入 Hy3 的研发当中，而姚顺雨也被评价为十分亲历亲为的领导角色，对技术细节相当关注，和下面同学一起开会时候不少；

人员上，姚顺雨入主之后，也在推动团队的重构，从字节、阿里、DeepSeek、Kimi 等部招揽大量核心人才，姚顺雨尤其喜欢信仰 AGI、技术扎实的年轻人，不少校招生、实习生也加入团队，给团队注入了不少新鲜血液。

如今的姚顺雨，面临的并非与行业巨头旗鼓相当的正面交锋，而是一场从底层补短板、填漏洞的追赶之战——腾讯的逆袭绝非一蹴而就，唯有沉下心打磨基本功，方能积蓄力量迎头赶上，重回竞逐的第一梯队。

（腾讯等大厂在 AI 赛道上的竞逐，背后内幕不少，雷峰网正持续深度调查，欢迎添加作者微信：william_dong了解更多消息。）

*本文左飞、邰萝、雷瓯均为化名。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴