打开网易新闻 查看精彩图片

4月29日,腾讯混元新模型 Hy3 preview 上线 OpenRouter 仅6天,直接冲上全球调用量总榜第一。

工具调用排第一,编程排第二。

打开网易新闻 查看精彩图片

你没看错,是全球总榜。不是国内自嗨的什么"最具潜力榜单",不是花钱就能上的评测认证,而是接入超过300个主流模型的 OpenRouter——这个平台被业内称为大模型调用的"总路由",用户全是真金白银掏钱调API的开发者。

这种榜单刷不了,也没法刷。

悄悄重建,三个月憋出大招

事情要从今年2月说起。

打开网易新闻 查看精彩图片

腾讯混元团队在首席AI科学家姚顺雨的主导下,完成了一次"推倒重来"式的底层重建。预训练、强化学习等核心基础设施全部重做,团队目标也变了——不再死磕公开榜单,开始死磕真实场景的评测标准。

我翻了一下技术报告,发现他们自建了50多个基准测试集,专门用来评估模型在实际业务中的表现,而不是Paper上好看的数据。

Hy3 preview 就是这次重建后的第一个产物。三个月的研发周期,总参数295B,激活参数只有21B,最大支持256K上下文——这种"大参数、活用的少"的设计,让推理效率比上一代直接提升40%。

同等成本下,开发者能让AI多干40%的活。

这才是全球开发者真正买账的核心原因。

用脚投票,比任何榜单都有说服力

有人可能还是觉得,这会不会又是昙花一现?

咱们来看数据:上线6天登顶总榜第一,同时拿下工具调用能力全球第一、编程能力全球第二。

这三个指标里,工具调用最能说明问题。

什么叫工具调用?说白了就是AI能自主联动各类功能工具,不用你一步一步下指令,自己判断、自己执行、自己纠错。以前这活儿全是 GPT 和 Claude 的强项,国产模型在这块一直是短板。

现在腾讯 Hy3 在 OpenRouter 上把 Claude 3.5、GPT-4o、Gemini Ultra 全压下去了。开发者用脚投票的结果,比任何广告词都管用。

定价也良心:个人版最低28元/月,输入1.2元/百万tokens,输出4元/百万tokens。对比一下海外那些动不动几十美元一个月的,吸引力不言而喻。

打脸"国产不如国外"的偏见

说实话,国产大模型在过去几年一直被贴着"落后"的标签。

不是我们不行,是早期确实差距明显。基础对话还行,一旦涉及复杂推理、多步骤任务串联,差距就出来了。久而久之,很多人形成了一种刻板印象:要用就用 GPT、Claude,国产只能做做简单聊天。

这次 Hy3 preview 登顶 OpenRouter,意义不只是腾讯自己的面子问题,而是给整个国产大模型行业正了名。

清华大学求真书院数学博士资格考试国内最高分、SWE-Bench Verified 代码智能体测试竞争力成绩、最长495步复杂 Agent 工作流……这些数据不是我自己说的,全是公开可查的基准测试结果。

更重要的是,这些能力已经落地了。元宝、WorkBuddy、QQ浏览器、腾讯文档,和平精英的 AI NPC 场景,全面接入。而且还开源了——模型权重和训练代码全部开放,GitHub、HuggingFace、ModelScope 都能下载。

打开网易新闻 查看精彩图片

开发者社区的反馈最能说明问题。开源不到一周,全球开发者自发测试、自发推荐,这种热度不是营销能堆出来的。

AI普及2.0时代,拼的是实用性和性价比

打开网易新闻 查看精彩图片

回头看这两年的大模型竞争,其实经历了一个转折。

DeepSeek 让大家意识到,光有技术参数不够,成本才是决定性因素。再强的模型,用不起也是白搭。AI 普及进入 2.0 时代,性价比和实用性成了新的关键词。

Hy3 preview 的思路很清晰:不拼万亿参数,拼的是"够用+便宜"。295B 总参数、21B 激活参数的设计,在性能和成本之间找到了一个平衡点。40% 的效率提升,加上 28 元/月的定价,精准切中了个人开发者和"一人公司"的核心需求。

腾讯首席AI科学家姚顺雨说过一句话挺实在的:"Hy3 preview 是混元大模型重建的第一步。我们希望通过开源获得真实反馈,帮助我们持续提升模型的实用性。"

没有"遥遥领先",没有"世界最强",就是踏踏实实做落地。

说到底,6天登顶全球榜不是奇迹,是积累。

从2023年混元首次亮相,到去年进入全球前八,再到今年工具调用能力登顶,腾讯混元走了一条"小步快跑、快速迭代"的路。每一步都不惊艳,但每一步都踩得扎实。

这次全球开发者用脚投票,某种程度上也是对过去几年国产大模型努力的一种认可。

当然,登顶只是开始。能不能稳住这个位置,能不能持续迭代出更实用的能力,才是真正的考验。

你觉得国产大模型这次登顶,是昙花一现还是真的崛起了?欢迎评论区聊聊。