打开网易新闻 查看精彩图片

■按:

腾讯开源了一个世界模型。

4月16日,腾讯正式发布并开源混元3D世界模型2.0(HY-World2.0)。

HY-World2.0是一个多模态世界模型,能够理解文字、图片、视频等不同类型输入,自动生成、重建和模拟3D世界。据悉,这个世界模型同时支持多格式3D资产(Mesh/3DGS/点云等)导出。

01.

实测混元3D世界模型2.0

《消费者报道》实测发现,目前该网站界面上,有世界生成、世界重建、360°全景图、实时生成世界四个不同类型的按钮,可以体验不同的3D场景生成功能。每一个按钮对应不同互动类型的场景,而这些场景都可以借助图片或视频生成。

打开网易新闻 查看精彩图片

世界生成功能主要是文本或单视角图像合成可沉浸式探索的三维世界。目前,只有获得内测权限的用户可以自主生成场景。

打开网易新闻 查看精彩图片

世界生成的可互动性是最高的,在生成自己的3D场景之后,用户还可以选择角色在3D场景中探索。行走、跳跃、转换视角等都不会影响3D场景的空间结构与一致性。

打开网易新闻 查看精彩图片

世界重建功能则试图从多视角输入还原三维特征。

《消费者报道》尝试环绕一个4平方米左右的空间录了一段21秒的视频,最后还原的3D模型,对空间大小、空间内部各个家具对应的位置关系展示得比较准确。

打开网易新闻 查看精彩图片

在同一个空间内,《消费者报道》尝试通过照片来重建空间,这一次《消费者报道》拍摄了10张照片,但(如图所示)重建结果相比视频不够准确,出现了家具重叠等问题。

打开网易新闻 查看精彩图片

《消费者报道》猜测,这可能是因为普通用户没有专业建模经验,并不知道如何拍摄能够囊括较多的空间位置信息,简单说就是普通用户如果要对空间重新建模,最好采用视频方式而不是简单的照片方式,如果是以照片方式,最好是提供多张多角度、且空间关系相对清楚的照片。

《消费者报道》注意到,混元世界模型提供的样例里,提交32张相对位置关系比较清晰的图片后,能够生成较为精确的建筑外观3D模型。

打开网易新闻 查看精彩图片

另外,360°全景图则是输入文本或单张图片后,生成一个可以环绕观看的全景画面。

打开网易新闻 查看精彩图片

实时生成世界功能同样也是输入文本或单张图片后,生成一个3D场景,用户可以以第一人称视角探索整个世界。

打开网易新闻 查看精彩图片

这意味着,用混元世界模型2.0生成的内容已经可以和游戏工作流无缝对接,生成游戏地图和关卡原型。

02.

世界模型的世界赛道

一个值得注意的事情是,这个世界模型是腾讯首席AI科学家姚顺雨官宣加入该公司之后升级的第一个世界模型。

去年12月,腾讯成立AI Infra部、AI Data部、数据计算平台部,全面强化其大模型的研发体系与核心能力。2025年12月17日姚顺雨入职腾讯 ,出任“CEO/总裁办公室”首席AI科学家,向腾讯总裁刘炽平汇报;同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报。

同天混元世界模型1.5发布。

自姚顺雨加入以来,腾讯多条 AI 产品线迎来更新,最受关注的是 “龙虾矩阵” 系列智能体。

腾讯的龙虾矩阵今年3月开始显山露水,目前已经有包括自研全场景桌面智能体WorkBuddy、直连微信的本地AI助手QClaw、腾讯云Lighthouse云端方案、企业级智能体开发平台ADP等在内的多个独立龙虾产品。

4月初,腾讯旗下QQ浏览器AI发布浏览器“龙虾”——QBotClaw后,QClaw V2 版本上线,更新了多Agent机制,利用不同Agent解决复杂问题。

而最新发布的混元3D世界模型2.0,其实是在腾讯去年发布的混元世界模型1.5基础上升级,4个月后,升级后混元世界模型的主要亮点在于可以实时生成多格式的3D资产。

腾讯的技术报告提到,这些技术可赋能多元应用场景,涵盖机器人仿真、环境建模等领域。

打开网易新闻 查看精彩图片

关于世界模型,目前还没有一个放之四海而皆准的定义,不过在业界观点看来,世界模型是一类能够对现实世界环境进行仿真,预测未来状态的生成式人工智能模型。世界模型需要具备能够表示世界、预测未来、在世界里规划和行动三种特征。

简言之,如果大语言模型的原理是预测下一个词汇,那世界模型预测并决策的则是下一秒环境的状态和相应的动作。

其实目前科技巨头们也在不断投入对世界模型的建设,世界模型背后,有一个正在形成和扩大的AI细分市场。

谷歌在去年8月公布了通用世界模型Genie 3。2026年1月,谷歌向外部开放了Genie 3的实验性研究原型——Project Genie。用户输入文字描述,能实时生成可交互、可探索的3D世界。

李飞飞的世界模型公司World Labs也在今年2月完成10亿美元融资。此前据媒体报道,Meta的超级智能AI实验室也与机器人团队合作试图构建世界模型。

中信证券研究认为,从内容生成时长、内在一致性、客观物理规律遵从、体验可重复性等方面,Project Genie仍处在较为早期阶段,对于游戏引擎、游戏开发商的商业模式、竞争格局尚无法形成实质性影响,对于游戏广告行业可能带来潜在利好。

作者:冯恋阁

微信编辑:vivian

责任编辑:肖道

制图:Judy Chen

转载授权、投稿、合作请联系消道长:

消道长微信:ccrzhushou