腾讯混元「推倒重来」！Hy3-Preview实测：结果喜忧参半|hy|preview|推理|混元世界模型|知名企业|腾讯

国内大模型的竞争，最近卷得有些让人眼花缭乱。几乎每隔一段时间，就会有新的模型发布，配上一张漂亮的跑分截图，然后悄悄在你的手机 App 里更新，不看新闻你甚至不一定知道自己用的是哪个版本。

这不，腾讯今天悄悄给元宝更新了全新混元 Hy3-Preview 模型，号称是「底层推倒重来的第一作」。主导这次重建的是首席 AI 科学家姚顺雨，他是ReAct 框架的提出者，也是元宝团队去年从学术界挖来的重量级人物。

（图源：腾讯混元）

有意思的是，Hy3-Preview刻意回避了跑分竞赛的路子，提出"评测真实性"原则，主动跳出容易被刷榜的公开榜单，改用自建题目和人工评测来衡量真实战斗力。官方特意强调了三个方向的重磅升级，分别是复杂推理、代码，以及智能体。

（图源：雷科技制图/官方 Promot 制作的网页游戏）

既然如此，那么小雷也不去看所谓的跑分、数据、榜单，直接来一波实测，就看看在这三个部分 Hy3-Preview 的表现到底如何。

Hy3代码实测：复杂任务有点难，生成速度非常快

这次我们实测围绕四个方向展开，分别是网页生成、游戏编写、交互建模和 SVG 动画。为了从普通用户的视角进行测试，我们使用的提示词全都是偏自然语言的描述，比如"做一个交互式音乐可视化网站"、"做一个 Roguelike 地牢探索游戏"这种，主要还是为了看看Hy3-Preview在没有明确指引的情况下，自己会做哪些决策、能把一件事做到什么程度。

（图源：雷科技制图）

第一轮我们来一个不算很难的 SVG 星图动画设计，这个代码的难点在于想象自己在一张纸上画一个会动的星空，同时还要让人能用手指转动它、点击星座看故事，这个场景其实在很多天文馆也有展示。

在元宝客户端上使用最新的 Hy3-Preview 模型，输入提示词之后，大约 30 秒就完成了代码输出，速度非常快。但出来的效果其实比较一般，基础框架搭得还算清晰，星星的生成和行星轨道的思路是对的，可惜流星效果没有做出来，拖拽交互也出现了问题，星座只有两个。

（图源：雷科技制图）

为了验证这段提示词的可行性，我们也尝试了 Codex 进行实测，同一段提示词下，Codex 几乎需要 5 分钟才能生成网页，而它也没有按要求做流星特效，只做了粒子效果，但星座故事是完整的，也有点击和拖拽效果。

（图源：雷科技制图/由 Codex 制作）

接着我们让它试试看做一个城市夜景 SVG 动画，这次它把题目要求的东西都做到了，建筑有层次，窗户真的会随机亮灭，车灯在街道上流动，闪电有双闪效果，尤其是窗户亮灭写得很细心。

（图源：雷科技制图）

接下来我们就要做一些比较有挑战性的测试，比如让元宝做一个网页游戏，而且是模拟建造游戏。这次元宝真的做了一套完整的游戏框架，经济系统有收入、支出、税收、维护费，每个月会结算一次，甚至有交通、噪音、绿化，还做了随机事件，偶尔会冒出"新居民迁入"或者"税收增加"的通知。

（图源：雷科技制图）

在做一个经典 Roguelike 游戏的时候，元宝还是稍微有点点掉链子，虽然它想到了设计战士/游侠/法师三个职业，整体的地牢地图设计得也还算合理，但它忘记了最重要的一件事，那就是设计敌人。没有敌人的话，主角就只能在地图里跑来跑去，也没法获得经验升级。

（图源：雷科技制图）

最后来到交互建模的部分，我们给出提示词，要求元宝做一个点击位置会扩散出真实的水波纹的交互特效，而这次元宝给的出的结果确实很不错，它用了像素级的波纹叠加把每一帧直接操作 Canvas 的像素数据，把多个波纹的强度叠加在一起生成水波纹的效果，其次是三个控件都真实可用。

唯一的遗憾可能就是波纹叠加的干涉效果不够明显，两个波纹交汇的时候，那种"亮一下"的叠加感偏弱。

（图源：雷科技制图）

从这几轮的代码测试来看，Hy3-Preview 在创意执行和界面呈现上已经进入可用的范围，用来做效果展示类的东西是够的，但如果任务本身的要求比较难，元宝可能会选择性地先搭好整个框架，再慢慢询问你的需求，是否要继续增加功能。速度的确是快的，可惜结果目前看来并不是特别完美。

逻辑推理，元宝被表面现象迷惑？

如果说编程测试考的是模型能不能"做出来"，推理测试考的就是它能不能"想清楚"。为了考验它的推理能力，我们给 Hy3 Preview 出了四道常识推理题，没有公式可以套，全靠对真实世界的理解。

结果有点出乎意料，它在最"聪明"的题上翻了车，却在最考验耐心的题上发挥稳定。

第一道题是个精心设计的陷阱，"一瓶水和一块冰，放在同一个保温箱里密封，24小时后，保温箱里的水变多了还是变少了？"正确答案是不变，因为箱子密封，里面的总质量哪儿也去不了，冰融化成水、水蒸发成水汽，形态在变，总量不动。Hy3 的回答是：水变多了。

（图源：雷科技制图）

它的理由听起来头头是道，冰在保温箱里会升华，水蒸气遇到冷的瓶壁凝结成液态水，所以液态水增加了。这个过程描述的单独看没什么问题，升华是真实存在的，凝结也是真实存在的，但它漏掉了一个前提是箱子是密封的，升华出来的水蒸气、凝结回去的液态水，都还在箱子里，液态水多了，意味着别的形态的水就少了，加起来总量守恒。

这是一个典型的漏看细节的错误，题目里"密封"两个字是最重要的条件，它却把注意力全放在升华和凝结这两个物理过程上，最后给出了一个听起来有道理，但是错误的答案。

不过接下来的题目，它的表现明显回来了。

第二道题问的是：早上出门，发现邻居家报纸没拿、车还在、窗帘拉着、灯没开，能推断出几种合理解释，哪种最可能？这道题没有标准答案，考的是推断有没有层次。

（图源：雷科技制图）

它的回答是认真的，有把几种可能性分层列出来，每种解释都附上了"支持点"和"疑点"，最后得出最可能的结论是邻居还没起床，车在说明人大概率在家，窗帘拉着灯没开符合还在睡觉的状态，报纸没拿是自然结果。整个推断链条清晰，没有直接跳到戏剧性结论，也没有把"出事了"这种小概率情况排在第一位。这种"优先考虑最平凡的解释"的判断方式，其实是推理里最难的。

第三道题问餐厅为什么把没人点的最贵菜放在菜单第一页，它答出了"价格锚定效应"，解释清楚了这道菜的作用不是被点走，而是让顾客看到它之后觉得后面的菜价格合理。这个答案到位，而且它额外说了一点，放在第一页而不是最后一页，是因为第一个看到的数字对后续判断影响最大，这个补充说明没有在题目里，是它自己想到的，这个值得点赞。

（图源：雷科技制图）

综合四道题来看，Hy3 在常识推理上呈现出一个有意思的特点，越是需要慢慢思考的题，它越容易出错，但需要展开来说的题，它反而发挥稳定。

换句话说，它更擅长把一个问题讲得有条理，但在判断"这道题的关键条件是什么"这件事上，有时候会被自己的知识量拖累。第一道题就是最好的例子知道的太多，反而没注意到题目里最重要的两个字。

其实这不只是 Hy3 的问题，几乎是所有大模型在常识推理上的共同现象。真正考验模型的，从来不是它知不知道升华和凝结，而是它在一堆知识涌上来的时候，能不能先停下来，把题目读完。

不过，抛开逻辑题之外，这次 Hy3-Preview 的确比之前多了点“活人感”。比如我跟他说“我今天被领导批评了，心情不好”，它就会直接安慰我，而不是让我反思自己的问题，先不说这种做法对不对，但至少情绪价值给到了。很多人在这种时刻，需要的不就是情绪上的安慰吗？

（图源：雷科技制图）

说实在的，答对一道推理题不难，但在对的时刻说一句对的话，更难，前者还能靠知识，而后者就只能靠理解了。很显然，Hy3 Preview 在这件事上，似乎比它的前辈们更有感觉了一点。

Hy3 Preview，有惊喜也有遗憾

测完这些，有种微妙的对照感——这个模型知道自己在做什么，但还没完全做到。

先说好的地方，创作和表达是 Hy3 Preview 目前最稳定的部分。比如城市夜景动画有审美、有细节，水波纹的实现思路选对了，推理题里的邻居场景分析层次清晰，聊天回复也确实少了那种一眼就能认出来的"AI腔"。这些加在一起，说明它在理解需求、组织语言、拿捏表达上已经有了相当的积累。用来聊天、写东西、做创意类的任务，体验是真的很不错。

但硬任务一来，差距就出来了。机械运动的物理逻辑错了大半，保温箱那道题被自己的知识量带跑，肉鸽游戏只搭了个壳。这几个案例指向同一个问题，它能把事情说得头头是道，但做起来的效果，其实还是有一点点不太让人满意。

不过放到整个行业背景里看，Hy3-Preview 完全是及格线以上的模型。

过去两年，国内大模型的竞争基本围绕两件事展开：参数规模和榜单排名。谁的参数更大，谁在 MMLU、GSM8K 上跑得更高，谁就站上发布会的 C 位。这种方式在早期是有意义的，它建立了一个共同的评判标准，让行业能快速分出梯队，就如同手机性能跑分，分高自然就是强。

（图源：腾讯混元）

但它的问题也越来越明显，榜单和真实体验之间的差距，用户早就感受到了。一个在数学推理榜单上排名很高的模型，可能在你问它"帮我润色一下这段话"的时候交出一篇比你原文还“AI”的东西。评测题和真实任务之间的距离，有时候比人们想象的要远得多。

腾讯这次选择的方向，某种程度上是在回应这个问题。他们提出不追公开榜单、用真实场景来验证模型能力，这个思路本身代表了行业一种新的成熟度，不是比谁分高，而是比谁真的好用。

从这个角度来看，Hy3 Preview 的意义不完全在于它现在能做到什么，更在于它选择了一条更难但更对的路，那就是放弃刷榜的捷径，从预训练到强化学习全部推倒重建。三个多月后交出这样一份答卷，从雷科技的实测来看，惊喜是有的，遗憾也确实有一点。

Hy3 Preview 目前的位置，在表达和创意上已经够用，在需要严格正确的任务上还需要时间。对普通用户来说，现在拿它来聊天、写东西、处理日常信息，体验是值得一试的。对于更高的期待，腾讯说了正式版还在路上，更大规模的模型也在训练中。

而且，既然这个版本带了“Preview”这个后缀，就说明它还没到正式版本的时候，或许等到摘掉了这个后缀，我们就能见识到混元真实的实力了。

2026第十九届北京国际汽车展览会将于4月24日至5月3日在北京‌中国国际展览中心（顺义馆）和首都国际会展中心（新国展二期）举行，本届车展以“领时代·智未来”为主题，集中展现汽车工业的更多黑科技。
比亚迪、小米、鸿蒙智行（问界等）、小鹏、蔚来、岚图等头部品牌集结，多款重磅新车首秀；地平线、Momenta、卓驭等供应商集体秀肌肉，AI大模型深度赋能，高阶智驾、动力电池、超快充技术等前沿科技集中亮相，看点拉满！
雷科技旗下「电车通」将派出报道团直击现场，以“关注电动车，更懂智能化”的专业视角，带来一线独家报道，敬请关注！