编辑|泽南、杨文
刚刚,腾讯 Hy3 preview 来了。
这是腾讯混元团队在架构、基础设施重新出发后的第一个版本,首批发布的模型尺寸较小,定位于实用性。
同样值得关注的是,Hy3 preview 是姚顺雨归国加盟腾讯后的第一个重要成果,遵循了他「AI 下半场」的理念,模型在腾讯真实业务和复杂场景中打磨提升,关注在真实业务场景的效果与实用性。
腾讯表示,新一代模型增强了在聊天、代码、智能体、数理推理、指令遵循、上下文理解等方面的能力。
目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。
另外,Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。
五一假期前,全球 AI 团队纷纷出招,我们已经陆续见证了千问的 Qwen 3.6 Max Preview、月之暗面的 Kimi 2.6,紧接着小米 MiMo-V2.5-Pro 上线。
基础大模型的腾讯混元 Hy3 preview 究竟水平如何?接下来,我们就上手测评一番。
Agent 硬核测试,「龙虾」任务它接住了吗?
姚顺雨是 ReAct 框架(智能体核心逻辑)的提出者,Hy3 preview 模型的能力提升当然包括代码和智能体方面,也顺应 Agent 下半场的技术趋势和市场需求。
在腾讯版 AI 办公助手 WorkBuddy 上,我们可以让它进行代码开发、深度研究、产品管理、数据分析等。
比如让它调研关于 DeepSeek 融资传闻,要求对比至少 5 个不同背景的权威信源,列出已知事实与逻辑冲突点,并给出信度评分。
它能自主启动多步搜索,完成长链推理后,系统性地梳理出信源间的矛盾之处,最终呈现出一份客观中立的调查报告,整个过程无需人工干预。
我们进一步要求它联网获取联合国人口司数据,完成一项「全球人口结构变迁」可视化分析。
这是一个涉及数据获取、清洗、分析与可视化呈现的复合型任务,Hy3 preview 同样完成得较为顺畅,最终输出了直观的图表与分析文本。
在代码能力测试中,我们让它生成一款「开心消消乐」网页游戏。最终结果画面精美,逻辑完整,可以正常运行,整体完成质量超出预期。
唠嗑、编故事……
它的基本功到底扎不扎实?
我们可以看到,腾讯混元大模型和其他家模型一样区分了模式:快速思考可以更快给出答案,深度思考可以让元宝思考更充分,回答更优质。当然我们这里全都选上深度思考。
腾讯混元这次升级主打一个实用,我们先来跟它唠唠嗑
和 Hy3 preview 吐槽自己最近变笨了,它耐心开解可能是最近睡得太少、工作压力大或者刷短视频太多,并给出了 3 个小 tips。
针对写稿没灵感的话题延续,它能自然衔接对话上下文,根据我们当下的情绪状态调整回应语气和深度,并给出有针对性的创作建议。
还能情绪价值拉满,变着花样夸人。
此前,知乎搞了个「AI 请接招」讨论,里面收录了一批 AI 易翻车的刁钻问题,其中一道是「今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?」
很多大模型被绕进去了,忽略了父母结婚时子女尚未出生的基本逻辑。Hy3 preview 敏锐察觉到这个点,引导用户理清情绪,表现出较强的常识推理与共情能力。
再来试试创意写作
前段时间,NASA 宇航员透过猎户座飞船主舱窗户遥望地球的神图,刷屏社交媒体。
我们让 Hy3 preview 为这张图片生成 5 条朋友圈文案。它先分析了图片氛围,选择了孤独震撼、对地球的敬畏、人类渺小与伟大等几个情感点,生成了不同风格的文案,有文艺挂的、有哲学性的,随便拿出来一条就能发朋友圈。
在模仿文风方面,我们要求它以欧・亨利的笔调创作一个短篇小说。
搜索能力方面,我们让 Hy3 preview 调查 Meta 强制收集鼠标键盘输入的原因,它迅速援引权威信源,给出了清晰、有据可查的回答。
无论是查新闻、查政策还是核实具体信息,整体表现均较为可靠。
「AI 下半场」的底层重构
据介绍,Hy3 preview 是一个快慢思考融合的 MoE 语言模型,总参数量为 295B,激活参数 21B,支持的上下文长度为 256K,兼具实用性和性价比。
在新一代模型上,混元团队的主要工作是进行底层重构,进而把很多工作做得更加牢固,特别是预训练和强化学习基建已被完全重做。他们在模型的大版本更新上,并没有过多把精力放在注意力机制、底层架构等方面的微小创新,而是选择了成熟的 MoE(混合专家)路线,把精力和资源全部砸在工程基座(Infra)的稳固性上。
这意味着 Hy3 preview 的稳定性、数据吞吐效率、强化学习(RL)管线的良品率可能达到了前所未有的工业级水准。
另外在训练的过程中,混元强调了模型评估,并加强了对自建 Benchmark 的研究,这就与之前顺雨在博客中展示的思路一致(评估大于训练,Evaluation > Training)。
在《大模型的下半场》中姚顺雨曾指出,现有的大模型「配方」(预训练 + 强化学习 + 算力扩展)已经高度成熟,具备了泛化和解决难题的能力,下半场的逻辑在于提出问题:「我们应该训练人工智能做什么?」
在下半场,由于现有通用模型配方极其强大,花费巨大精力做出微调可能只带来 5% 的提升,因此,评估变得比训练更重要。行业需要重构评估体系,设计出贴近现实世界的新任务和新范式,而不是简单地设计更难的考卷。
要在 AI 下半场生存和发展,从业者必须转变思维模式,具备类似「产品经理」的视角。这意味着必须去深入思考:AI 究竟该为谁解决什么实际问题?我们又该如何客观地衡量它解决得好不好?
在这方面,腾讯拥有微信、游戏、广告、云服务等国内、甚至全球最复杂的业务场景,其自建的评测环境,必然高度贴合真实业务流的难点和痛点。Hy3 preview 的推出,或许已为腾讯在其生态内构建出了一个能够解决实际问题的生产力工具。
Hy3 preview 于 2026 年 1 月底启动训练,从训练到上线仅用了不到三个月,这是混元大语言模型从「读万卷书」到「行万里路」,尝试解决真实世界问题的一个开端。
Hy3 preview 只是一个起点,未来混元团队还希望通过开发者与用户共同协作的方式进一步提升模型能力,使其在真实场景和任务中持续发展。
文中视频链接:https://mp.weixin.qq.com/s/49sPn3OqJBl0bLlc-Sr-Pg
热门跟贴