4月23日,腾讯正式揭开了Hy3 preview (混元3.0预览版)的神秘面纱,并开源。
Hy3 preview 是一个快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。
不难发现,Hy3 preview并没有追求大规模参数,而是定位在了“兼具性能和性价比”,目标是成为大部分业务场景实践落地的最优选择之一。
在腾讯方面看来,300B是能力与效率的最优平衡带。复杂推理、长上下文理解、指令遵循等能力在这个量级已经充分释放,继续扩大参数规模的边际收益显著递减——投入翻倍,能力提升往往只在个位数百分点。
据介绍,除了日常对话(闲聊、写作、搜索等)的能力外,Hy3 preview也着力提升在Coding和智能体、指令遵循、上下文理解等方面的能力,目前已经在元宝、ima、WorkBuddy、CodeBuddy等众多腾讯内部产品中上线。
Hy3是腾讯在 AI 下半场的一次节奏校准。
过去几个月,腾讯比较密集地进行了混元大模型团队的组织升级和工作流重构,同时在今年2月也重新建立了包括预训练和强化学习在内的大模型研发基础设施,以及进一步提升数据质量。
腾讯彼时还建立了模型追求实用性的三个原则:一是强调能力体系化,不推崇“偏科”;二是评测真实性,主动跳出易被“刷榜”的公开榜单;三是追求性价比追求。
Hy3 preview不仅是混元大模型在历经全链路重建后的第一个大模型,更是腾讯首席 AI 科学家、AI Infra 部及大语言模型部负责人姚顺雨加入腾讯后的首份成绩单。
据华尔街见闻了解,Hy3 preview于2026年1月底启动训练,从训练到上线用了不到三个月,这也被腾讯内部视作混元大语言模型尝试解决真实世界问题的一个开端。
姚顺雨表示,Hy3 preview是混元大模型重建的第一步。腾讯希望这次开源和发布,获得来自开源社区和用户的真实反馈,帮助提升 Hy3 正式版的实用性。
同时,“我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。”姚顺雨说道。
据悉,Hy3 preview研发过程中,混元模型团队与元宝产品团队进行了co-design。
混元团队认为,模型的评估不是通过榜单的简单堆叠,而是对于复杂能力体系的适应,是在实际业务场景中的落地。所以一方面,团队自建了50多个Benchmarks去评估模型的实际能力和落地性;另一方面,也与腾讯内部业务紧密贴合,让模型在实际应用中学习进化。
Hy3 preview 上线发布,也是混元研发加速演进的一个重要信号。华尔街见闻了解到,在新的基础设施和技术理念的支撑下,混元更大尺寸的模型也已经在路上。
如今随着AI技术竞争进入下半场,大模型在完整工作流中的协作效果,或者说是“执行任务”的能力已成为竞争的焦点,这也是此次Hy3 preview重点提升Coding、智能、指令遵循和上下文学习能力的原因。
为验证Hy3 preview 的干活能力,混元模型团队开展了面向内部用户的人工评测,评测覆盖 coding 与通用工作流等典型使用环境。腾讯提供数据显示,Hy3 preview 在用户盲评中的整体胜率约为 55%–56%。
目前,Hy3 preview也已经接入了腾讯内部的CodeBuddy、WorkBuddy等AI Agent产品。
腾讯提供数据显示,在CodeBuddy、WorkBuddy产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、成功率提升至 99.99%+。
在实际用户环境中,Hy3 preview已稳定驱动最长495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。
腾讯高级执行副总裁、云与智慧产业事业群CEO汤道生在3月份公开表示,当前人工智能的应用范式正从“Chatbot”向“AI Agent”跃迁。AI落地不只是一道算法题,更是一道工程题——随着主流大模型能力差距逐步缩小,企业比拼的不再是“谁的模型更强”,而是谁能通过工程化手段把模型用好。
显然,腾讯正试图证明,即使模型本身不是最顶尖的,只要“底盘”够稳、接口够多、工程能力越强,依然能打赢 Agent 时代的生态战。
Hy3 preview 的发布,标志着腾讯依然不执着于堆砌参数规模的神话,而是选择在 300B 参数的基准线上,利用腾讯庞大的社交与工具生态进行高效率的“以战养技”。
这种节奏感究竟能让腾讯在 Agent 下半场走多远,将取决于 Hy3 正式版能否在“读万卷书”之后,真正完成“行万里路”的质变。
热门跟贴