腾讯混元登顶全球第一！不是刷榜，是开发者用脚投票

呼呼历史论

2026-05-01 08:26 ·辽宁

4月29日，腾讯混元新模型 Hy3 preview 上线 OpenRouter 仅6天，直接冲上全球调用量总榜第一。

工具调用排第一，编程排第二。

你没看错，是全球总榜。不是国内自嗨的什么"最具潜力榜单"，不是花钱就能上的评测认证，而是接入超过300个主流模型的 OpenRouter——这个平台被业内称为大模型调用的"总路由"，用户全是真金白银掏钱调API的开发者。

这种榜单刷不了，也没法刷。

悄悄重建，三个月憋出大招

事情要从今年2月说起。

腾讯混元团队在首席AI科学家姚顺雨的主导下，完成了一次"推倒重来"式的底层重建。预训练、强化学习等核心基础设施全部重做，团队目标也变了——不再死磕公开榜单，开始死磕真实场景的评测标准。

我翻了一下技术报告，发现他们自建了50多个基准测试集，专门用来评估模型在实际业务中的表现，而不是Paper上好看的数据。

Hy3 preview 就是这次重建后的第一个产物。三个月的研发周期，总参数295B，激活参数只有21B，最大支持256K上下文——这种"大参数、活用的少"的设计，让推理效率比上一代直接提升40%。

同等成本下，开发者能让AI多干40%的活。

这才是全球开发者真正买账的核心原因。

用脚投票，比任何榜单都有说服力

有人可能还是觉得，这会不会又是昙花一现？

咱们来看数据：上线6天登顶总榜第一，同时拿下工具调用能力全球第一、编程能力全球第二。

这三个指标里，工具调用最能说明问题。

什么叫工具调用？说白了就是AI能自主联动各类功能工具，不用你一步一步下指令，自己判断、自己执行、自己纠错。以前这活儿全是 GPT 和 Claude 的强项，国产模型在这块一直是短板。

现在腾讯 Hy3 在 OpenRouter 上把 Claude 3.5、GPT-4o、Gemini Ultra 全压下去了。开发者用脚投票的结果，比任何广告词都管用。

定价也良心：个人版最低28元/月，输入1.2元/百万tokens，输出4元/百万tokens。对比一下海外那些动不动几十美元一个月的，吸引力不言而喻。

打脸"国产不如国外"的偏见

说实话，国产大模型在过去几年一直被贴着"落后"的标签。

不是我们不行，是早期确实差距明显。基础对话还行，一旦涉及复杂推理、多步骤任务串联，差距就出来了。久而久之，很多人形成了一种刻板印象：要用就用 GPT、Claude，国产只能做做简单聊天。

这次 Hy3 preview 登顶 OpenRouter，意义不只是腾讯自己的面子问题，而是给整个国产大模型行业正了名。

清华大学求真书院数学博士资格考试国内最高分、SWE-Bench Verified 代码智能体测试竞争力成绩、最长495步复杂 Agent 工作流……这些数据不是我自己说的，全是公开可查的基准测试结果。

更重要的是，这些能力已经落地了。元宝、WorkBuddy、QQ浏览器、腾讯文档，和平精英的 AI NPC 场景，全面接入。而且还开源了——模型权重和训练代码全部开放，GitHub、HuggingFace、ModelScope 都能下载。

开发者社区的反馈最能说明问题。开源不到一周，全球开发者自发测试、自发推荐，这种热度不是营销能堆出来的。

AI普及2.0时代，拼的是实用性和性价比

回头看这两年的大模型竞争，其实经历了一个转折。

DeepSeek 让大家意识到，光有技术参数不够，成本才是决定性因素。再强的模型，用不起也是白搭。AI 普及进入 2.0 时代，性价比和实用性成了新的关键词。

Hy3 preview 的思路很清晰：不拼万亿参数，拼的是"够用+便宜"。295B 总参数、21B 激活参数的设计，在性能和成本之间找到了一个平衡点。40% 的效率提升，加上 28 元/月的定价，精准切中了个人开发者和"一人公司"的核心需求。

腾讯首席AI科学家姚顺雨说过一句话挺实在的："Hy3 preview 是混元大模型重建的第一步。我们希望通过开源获得真实反馈，帮助我们持续提升模型的实用性。"

没有"遥遥领先"，没有"世界最强"，就是踏踏实实做落地。

说到底，6天登顶全球榜不是奇迹，是积累。

从2023年混元首次亮相，到去年进入全球前八，再到今年工具调用能力登顶，腾讯混元走了一条"小步快跑、快速迭代"的路。每一步都不惊艳，但每一步都踩得扎实。

这次全球开发者用脚投票，某种程度上也是对过去几年国产大模型努力的一种认可。

当然，登顶只是开始。能不能稳住这个位置，能不能持续迭代出更实用的能力，才是真正的考验。

你觉得国产大模型这次登顶，是昙花一现还是真的崛起了？欢迎评论区聊聊。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴