国内大模型的竞争,最近卷得有些让人眼花缭乱。几乎每隔一段时间,就会有新的模型发布,配上一张漂亮的跑分截图,然后悄悄在你的手机 App 里更新,不看新闻你甚至不一定知道自己用的是哪个版本。

这不,腾讯今天悄悄给元宝更新了全新混元 Hy3-Preview 模型,号称是「底层推倒重来的第一作」。主导这次重建的是首席 AI 科学家姚顺雨,他是ReAct 框架的提出者,也是元宝团队去年从学术界挖来的重量级人物。

打开网易新闻 查看精彩图片

(图源:腾讯混元)

有意思的是,Hy3-Preview刻意回避了跑分竞赛的路子,提出"评测真实性"原则,主动跳出容易被刷榜的公开榜单,改用自建题目和人工评测来衡量真实战斗力。官方特意强调了三个方向的重磅升级,分别是复杂推理、代码,以及智能体。

打开网易新闻 查看精彩图片

(图源:雷科技制图/官方 Promot 制作的网页游戏)

既然如此,那么小雷也不去看所谓的跑分、数据、榜单,直接来一波实测,就看看在这三个部分 Hy3-Preview 的表现到底如何。

Hy3代码实测:复杂任务有点难,生成速度非常快

这次我们实测围绕四个方向展开,分别是网页生成、游戏编写、交互建模和 SVG 动画。为了从普通用户的视角进行测试,我们使用的提示词全都是偏自然语言的描述,比如"做一个交互式音乐可视化网站"、"做一个 Roguelike 地牢探索游戏"这种,主要还是为了看看Hy3-Preview在没有明确指引的情况下,自己会做哪些决策、能把一件事做到什么程度。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

第一轮我们来一个不算很难的 SVG 星图动画设计,这个代码的难点在于想象自己在一张纸上画一个会动的星空,同时还要让人能用手指转动它、点击星座看故事,这个场景其实在很多天文馆也有展示。

在元宝客户端上使用最新的 Hy3-Preview 模型,输入提示词之后,大约 30 秒就完成了代码输出,速度非常快。但出来的效果其实比较一般,基础框架搭得还算清晰,星星的生成和行星轨道的思路是对的,可惜流星效果没有做出来,拖拽交互也出现了问题,星座只有两个。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

为了验证这段提示词的可行性,我们也尝试了 Codex 进行实测,同一段提示词下,Codex 几乎需要 5 分钟才能生成网页,而它也没有按要求做流星特效,只做了粒子效果,但星座故事是完整的,也有点击和拖拽效果。

打开网易新闻 查看精彩图片

(图源:雷科技制图/由 Codex 制作)

接着我们让它试试看做一个城市夜景 SVG 动画,这次它把题目要求的东西都做到了,建筑有层次,窗户真的会随机亮灭,车灯在街道上流动,闪电有双闪效果,尤其是窗户亮灭写得很细心。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

接下来我们就要做一些比较有挑战性的测试,比如让元宝做一个网页游戏,而且是模拟建造游戏。这次元宝真的做了一套完整的游戏框架,经济系统有收入、支出、税收、维护费,每个月会结算一次,甚至有交通、噪音、绿化,还做了随机事件,偶尔会冒出"新居民迁入"或者"税收增加"的通知。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

在做一个经典 Roguelike 游戏的时候,元宝还是稍微有点点掉链子,虽然它想到了设计战士/游侠/法师三个职业,整体的地牢地图设计得也还算合理,但它忘记了最重要的一件事,那就是设计敌人。没有敌人的话,主角就只能在地图里跑来跑去,也没法获得经验升级。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

最后来到交互建模的部分,我们给出提示词,要求元宝做一个点击位置会扩散出真实的水波纹的交互特效,而这次元宝给的出的结果确实很不错,它用了像素级的波纹叠加把每一帧直接操作 Canvas 的像素数据,把多个波纹的强度叠加在一起生成水波纹的效果,其次是三个控件都真实可用。

唯一的遗憾可能就是波纹叠加的干涉效果不够明显,两个波纹交汇的时候,那种"亮一下"的叠加感偏弱。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

从这几轮的代码测试来看,Hy3-Preview 在创意执行和界面呈现上已经进入可用的范围,用来做效果展示类的东西是够的,但如果任务本身的要求比较难,元宝可能会选择性地先搭好整个框架,再慢慢询问你的需求,是否要继续增加功能。速度的确是快的,可惜结果目前看来并不是特别完美。

逻辑推理,元宝被表面现象迷惑?

如果说编程测试考的是模型能不能"做出来",推理测试考的就是它能不能"想清楚"。为了考验它的推理能力,我们给 Hy3 Preview 出了四道常识推理题,没有公式可以套,全靠对真实世界的理解。

结果有点出乎意料,它在最"聪明"的题上翻了车,却在最考验耐心的题上发挥稳定。

第一道题是个精心设计的陷阱,"一瓶水和一块冰,放在同一个保温箱里密封,24小时后,保温箱里的水变多了还是变少了?"正确答案是不变,因为箱子密封,里面的总质量哪儿也去不了,冰融化成水、水蒸发成水汽,形态在变,总量不动。Hy3 的回答是:水变多了。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

它的理由听起来头头是道,冰在保温箱里会升华,水蒸气遇到冷的瓶壁凝结成液态水,所以液态水增加了。这个过程描述的单独看没什么问题,升华是真实存在的,凝结也是真实存在的,但它漏掉了一个前提是箱子是密封的,升华出来的水蒸气、凝结回去的液态水,都还在箱子里,液态水多了,意味着别的形态的水就少了,加起来总量守恒。

这是一个典型的漏看细节的错误,题目里"密封"两个字是最重要的条件,它却把注意力全放在升华和凝结这两个物理过程上,最后给出了一个听起来有道理,但是错误的答案。

不过接下来的题目,它的表现明显回来了。

第二道题问的是:早上出门,发现邻居家报纸没拿、车还在、窗帘拉着、灯没开,能推断出几种合理解释,哪种最可能?这道题没有标准答案,考的是推断有没有层次。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

它的回答是认真的,有把几种可能性分层列出来,每种解释都附上了"支持点"和"疑点",最后得出最可能的结论是邻居还没起床,车在说明人大概率在家,窗帘拉着灯没开符合还在睡觉的状态,报纸没拿是自然结果。整个推断链条清晰,没有直接跳到戏剧性结论,也没有把"出事了"这种小概率情况排在第一位。这种"优先考虑最平凡的解释"的判断方式,其实是推理里最难的。

第三道题问餐厅为什么把没人点的最贵菜放在菜单第一页,它答出了"价格锚定效应",解释清楚了这道菜的作用不是被点走,而是让顾客看到它之后觉得后面的菜价格合理。这个答案到位,而且它额外说了一点,放在第一页而不是最后一页,是因为第一个看到的数字对后续判断影响最大,这个补充说明没有在题目里,是它自己想到的,这个值得点赞。

打开网易新闻 查看精彩图片

(图源:雷科技制图)

综合四道题来看,Hy3 在常识推理上呈现出一个有意思的特点,越是需要慢慢思考的题,它越容易出错,但需要展开来说的题,它反而发挥稳定。

换句话说,它更擅长把一个问题讲得有条理,但在判断"这道题的关键条件是什么"这件事上,有时候会被自己的知识量拖累。第一道题就是最好的例子知道的太多,反而没注意到题目里最重要的两个字。

其实这不只是 Hy3 的问题,几乎是所有大模型在常识推理上的共同现象。真正考验模型的,从来不是它知不知道升华和凝结,而是它在一堆知识涌上来的时候,能不能先停下来,把题目读完。

不过,抛开逻辑题之外,这次 Hy3-Preview 的确比之前多了点“活人感”。比如我跟他说“我今天被领导批评了,心情不好”,它就会直接安慰我,而不是让我反思自己的问题,先不说这种做法对不对,但至少情绪价值给到了。很多人在这种时刻,需要的不就是情绪上的安慰吗?

打开网易新闻 查看精彩图片

(图源:雷科技制图)

说实在的,答对一道推理题不难,但在对的时刻说一句对的话,更难,前者还能靠知识,而后者就只能靠理解了。很显然,Hy3 Preview 在这件事上,似乎比它的前辈们更有感觉了一点。

Hy3 Preview,有惊喜也有遗憾

测完这些,有种微妙的对照感——这个模型知道自己在做什么,但还没完全做到。

先说好的地方,创作和表达是 Hy3 Preview 目前最稳定的部分。比如城市夜景动画有审美、有细节,水波纹的实现思路选对了,推理题里的邻居场景分析层次清晰,聊天回复也确实少了那种一眼就能认出来的"AI腔"。这些加在一起,说明它在理解需求、组织语言、拿捏表达上已经有了相当的积累。用来聊天、写东西、做创意类的任务,体验是真的很不错。

但硬任务一来,差距就出来了。机械运动的物理逻辑错了大半,保温箱那道题被自己的知识量带跑,肉鸽游戏只搭了个壳。这几个案例指向同一个问题,它能把事情说得头头是道,但做起来的效果,其实还是有一点点不太让人满意。

不过放到整个行业背景里看,Hy3-Preview 完全是及格线以上的模型。

过去两年,国内大模型的竞争基本围绕两件事展开:参数规模和榜单排名。谁的参数更大,谁在 MMLU、GSM8K 上跑得更高,谁就站上发布会的 C 位。这种方式在早期是有意义的,它建立了一个共同的评判标准,让行业能快速分出梯队,就如同手机性能跑分,分高自然就是强。

打开网易新闻 查看精彩图片

(图源:腾讯混元)

但它的问题也越来越明显,榜单和真实体验之间的差距,用户早就感受到了。一个在数学推理榜单上排名很高的模型,可能在你问它"帮我润色一下这段话"的时候交出一篇比你原文还“AI”的东西。评测题和真实任务之间的距离,有时候比人们想象的要远得多。

腾讯这次选择的方向,某种程度上是在回应这个问题。他们提出不追公开榜单、用真实场景来验证模型能力,这个思路本身代表了行业一种新的成熟度,不是比谁分高,而是比谁真的好用。

从这个角度来看,Hy3 Preview 的意义不完全在于它现在能做到什么,更在于它选择了一条更难但更对的路,那就是放弃刷榜的捷径,从预训练到强化学习全部推倒重建。三个多月后交出这样一份答卷,从雷科技的实测来看,惊喜是有的,遗憾也确实有一点。

Hy3 Preview 目前的位置,在表达和创意上已经够用,在需要严格正确的任务上还需要时间。对普通用户来说,现在拿它来聊天、写东西、处理日常信息,体验是值得一试的。对于更高的期待,腾讯说了正式版还在路上,更大规模的模型也在训练中。

而且,既然这个版本带了“Preview”这个后缀,就说明它还没到正式版本的时候,或许等到摘掉了这个后缀,我们就能见识到混元真实的实力了。

2026第十九届北京国际汽车展览会将于4月24日至5月3日在北京‌中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)举行,本届车展以“领时代·智未来”为主题,集中展现汽车工业的更多黑科技。
比亚迪、小米、鸿蒙智行(问界等)、小鹏、蔚来、岚图等头部品牌集结,多款重磅新车首秀;地平线、Momenta、卓驭等供应商集体秀肌肉,AI大模型深度赋能,高阶智驾、动力电池、超快充技术等前沿科技集中亮相,看点拉满!
雷科技旗下「电车通」将派出报道团直击现场,以“关注电动车,更懂智能化”的专业视角,带来一线独家报道,敬请关注!

打开网易新闻 查看精彩图片