打开网易新闻 查看精彩图片

Hi,我是洛小山,你的AI学习搭子。

今天,我想和你深入聊聊下混元图像 3 这款开源模型的边界。

如果你是 AI 技术产品经理,强烈推荐你看到最后。

去年,我写了一篇《当友商开着飞机来的时候,你挖的护城河还有用吗》,分析腾讯为什么要腹泻式开源。

那篇文章达成了历史最高的完读率。

打开网易新闻 查看精彩图片

当时我的判断是:腾讯打算在自己最擅长的战场:内容生态,做大力投入。

用开源换生态,用开源换标准定义权,用开源换开发者生态。

春节前,这个布局的效果来了…

混元图像 3.0 开源了图生图能力…

先说结论:

1、 如果你的公司必须私有化部署高质量生图模型,混元图像 3.0 可能是你最优选择之一。

2、 如果你是一家算力中心,推荐部署混元图像 3.0,提供对标 GPT-Image 效果的服务,提升服务价值。

3、 如果你是超级个体,可以直接试试在混元 3.0 官网和元宝全端免费体验。

80B 参数,代码权重全给你,完全开放,可以后训练。

我把它和 Gemini 3 Pro、ChatGPT Image、即梦 4.0、即梦 4.5 放在一起跑了一遍。 在 12 个维度的测试中,混元图像 3.0 在场景改造、风格转换、属性修改等核心维度上,已经追平甚至超越了部分闭源模型。

下面,我会通过 100+ 张实测对比图,告诉你:

1. 哪些场景它能打,哪些场景还不行?

2. 为什么这次不一样?

3. 对你的业务意味着什么?

先看一下我测评集里面的综合性测试,混元图像 3.0 模型已经超越部分闭源模型的改图效果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图片是 10k 超清分辨率,在微信上可能会被压缩。

你可以后台发送「混元测试」获取完整测评结果。

01|先看技术路径

在聊测试结果之前,先把混元图像 3.0 放到技术版图里看。

我之前在《Nano Banana Pro 为什么能做 PPT》里画过一个四象限,把主流的图像生成路线分了个类:

打开网易新闻 查看精彩图片

如今需要更新一下了~

打开网易新闻 查看精彩图片

混元图像 3.0 和 Nano Banana 都走自回归路线,但架构哲学不太一样。

Nano Banana:双脑协作

Gemini LLM 负责理解和规划,HART 负责生成。

两个模块各司其职,中间用 Layout Plan 来进行传递。

混元图像 3.0:单脑统一

图片的理解、推理、生成全在一个 Transformer 里完成。

官方文档的原话是:

unyuanImage-3.0 突破当前主流的 DiT 架构,采用统一的自回归框架。 该设计能更直接、统一地对文本与图像模态进行建模,实现了语义理解与图像生成的高度融合,从而生成效果惊人、语境丰富的图像。

翻译成人话:文本和图像不需要中间翻译在同一个语义空间里处理。

看一下它的架构图:

打开网易新闻 查看精彩图片

这张图是混元图像 3.0 最核心的设计理念,值得展开讲讲。

中间那条蓝色的横杠,就是整个系统的大脑:就是 Hunyuan-A13B,一个只包括解析器的 Transformer 模型。

这个 Transformer 在应答你内容的时候,同时处理三件事:

① 图像理解(左边橙色区域)

打开网易新闻 查看精彩图片

② 语言建模(中间灰色区域)

打开网易新闻 查看精彩图片

③ 图像生成(右边蓝色区域)

打开网易新闻 查看精彩图片

关键在于:这三件事不是分开做的,而是在同一个 Transformer 里并行处理。

传统的多模态模型,比如 CLIP + Stable Diffusion,是这样工作的:

  1. 先理解文本和图像(理解模块)

  2. 把理解结果传给 Stable Diffusion(生成模块)

  3. 两个模块各自训练,中间用 Embedding 来对齐

然而,混元图像 3.0 把这两步合并了:

  • 理解和生成共享同一个参数空间;
  • 图像的语义(理解)和图像的像素(生成)在同一个 Transformer 里建模;

  • 官方的说法是: 「文字和图片成像不需要中间翻译,在同一个语义空间里处理」

这就和人脑一样:你看到一张图,理解它是什么,然后想象出一张新的图,这些过程都发生在同一个神经网络里。

这个架构带来了三个好处:

1. 端到端训练

  • 不需要分别训练理解模块和生成模块

  • 理解能力和生成能力可以互相促进

2. 推理能力更强

  • Transformer 本身就擅长推理(这是 LLM 的强项)

  • 所以混元图像 3.0 能做思维链式生成(CoT Think)

  • 输入一张图 + 模糊的 Prompt,它能自己推理出详细的生成指令

3. 图生图能力天然支持

  • 左边的 Und. Encoder 理解输入图像

  • 右边的 Gen. Decoder 生成新图像

  • 中间的 Transformer 做语义变换

  • 整个流程一气呵成

不过,这个架构也有代价:80B 参数,64 个 MoE 专家,每个 token 激活 13B。意味着推理成本其实不低。

毕竟…

640G 的显存也不是随随便便谁都能掏得起的…

不过,如果你们公司之前部署过 DeepSeek R1 ,现在吃灰了的话…

可以玩玩这个。

这个是模型信息:

打开网易新闻 查看精彩图片

不过腾讯这次开源了蒸馏版本,8 步采样就能出图,算是在效果和效率之间找到了平衡。

那这俩架构下,混元和谷歌的这两条路谁更好?

现在下结论可能还有点早。

但至少在效果上,混元图像 3.0 证明了统一架构这条路不仅走得通,而且走得快。统一架构的优势直接帮他们追平了其他闭源模型。

而且从开源策略来看,腾讯这次是真的在押宝这条赛道。

02|雷达图:开源追上来了

在上强度之前,我一般会先看看官方文档。

官方的SSAE评测(结构化语义对齐评估),覆盖12个维度、3500+关键点:

这里有几个关键的发现:

第一,四条线几乎重叠。

混元图像 3.0(红线)和 Seedream 4.0、Nano Banana、GPT-Image 几乎贴在一起。

这是开源模型第一次被拉到这张桌子上。

以前这种雷达图,开源模型的线总是比闭源模型挫一些,毕竟开源的还要啥自行车。

现在混元把这个差距基本拉平了(这也是我觉得腾讯开源很有诚意的原因之一)。

第二,中英文能力几乎一致。

左图是英文、右图中文,混元的曲线整体形状几乎没变。

英文场景下,即梦的动作和 Nano Banana 组合需求的能力好一些。

不过,鹅对中文理解的底子在这,没有因为刷国际 benchmark 而牺牲中文能力。

因为很多国内模型为了刷榜,英文数据喂得多,中文反而退化很多。

我觉得这也是混元自证能力的关键。

第三,唯一的明显短板是 Comp(组合能力)。

红线在这个维度有个凹陷。 也就是说,如果让它同时处理戴墨镜 + 戴帽子 + 骑独轮车 + 顶苹果这种复杂指令,遵循性是不够的。

这个短板也符合预期。因为统一架构的代价是序列长度有限,多概念并行处理能力天然弱于 Nano Banana 那种「先规划后执行」的方案。

但这个缺陷主要集中在英文场景下,中文场景基本上拉平了。

话不多说,简单总结一下这张雷达图吧。

这应该是开源模型第一次在全面性上追平闭源。

以前的开源模型,要么中文差(SD3),要么推理慢(DiT),要么组合能力弱(早期 VAR)。

混元是第一个在各个维度都没有明显短板的开源模型。

03|实测:逐维度拷打

熟悉我的朋友们都知道,我基本上不看 Benchmark,因为我默认所有模型都会刷榜,我只相信实测结果。

下面是用我的测试集,在「没有充值」的情况下,进行的横向对比实测。

这里要先讲一下我自己设计测试集的原因。

混元官方博客提到,他们使用了SSAE(Structured Semantic Alignment Evaluation)这套业界最细粒度的语义评测框架。

地址:https://github.com/Tencent-Hunyuan/HY-Motion-1.0/blob/master/ssae/README_zh_cn.md

SSAE 的核心思路是这样的:

给定一个 Prompt,比如「个人向前滑步,同时做出用长矛刺击的动作」 会被拆解成三个问题: 此人是否沿着地面做出向前滑行的动作? 手和手臂的动作是否像在握持并刺击一根长杆状物体? 滑行动作和手臂刺击动作是否同时进行?

VLM (他们选的是 Gemini )会对这三个问题分别回答是或否,如果三个都选择「是」,得分就是 100%;如果只有两个选择「是」,得分就是 67%。

打开网易新闻 查看精彩图片

这套方法看起来还挺严谨的,但对我们的参考价值不是那么大。

因为我们要的是可用,他们评的只是分数,评的只是有和没有。

这样布尔值的评估,两个模型的效果对比起来,就算都是「是」,质量也可能天差地别。

比如还是上面那个 case ,A 模型滑动自然、抓握自然,B 模型肢体僵硬、每个动作都有自己的想法。这两个模型可能评分都是 100, 但实用性完全是成稿和废稿的差别。

所以,我参考他们的维度,然后制定了自己的测试方法和测试集。

自己设计了一套测试集:SLCT-v。

全是Stress Limit Capability Test - vision ,不是山佬CT。

未来所有LLM 或者生图模型的横评,我都会基于这一套测试集来做,并考虑开源。

差异点主要有:

1.每个维度都会单独出题,单独给提示词。

不像 SSAE 这样,把多个参数混在一个大的 Prompt 里求平均分,我会针对每个语义维度单独设计专门的测试 Case。

比如要测场景动态改变(S-Action),我就只改场景,不改主体;

要测主体属性改变(P-KeyAttr),我就只改属性,不改场景;

要测复合动作(Composite Action),我就专门设计需要多个动作同时进行的场景。

这样的好处就是,在控制变量下,模型的短板能明显暴露出来。

2.难度递进,尽量逼近模型能力上线。

SSAE 是一个 Prompt 拆解问题做是和否的判断。

我的测法是:同一张参考图,然后给出三级难度递进。

基础难度测入门级要求,看基本能力;然后逐步提升难度,探索模型能力边界。

比如:Scene-Noun(场景元素修改)为例,参考图是一张阳光下的松树林。

基础难度就是语义替换,要求把松树换成「竹林」,保留光影。只要能简单改好内容就行。

升级难度是多个属性的耦合了,比如松树改成红枫树,然后枝干要扭曲,再加几块石头等等。

模型要理解内容,处理要求的同时还要考虑要求对内容的影响。

噩梦难度就是整个概念的重构了。

比如我要求改成卫星植物群落…提了更多要求的时候,基本上就是基于原图的二创了。

模型不但要理解光对环境的影响,要理解材质,还要把这些现实中不存在的东西画得像那么回事

打开网易新闻 查看精彩图片

3.人眼判断质量,不用是和否来打分。

SSAE 用 VLM 自动判断是否符合要求,效率高,但机器看不太出质量差异。

这些要求我也不会评估对和不对,而是在人的视角中,看好还是不好。

我的测法是:直接放大图对比,用人眼看质量天花板。

比如最后一个难度, NBP 就很拉了。

但 GPT Image 和 即梦的哪个好?文无第一武无第二,可能要见仁见智…

但,种种细节决定了能不能用、用得爽不爽的本质差距。

只有这些都取得了比较好的效果,我觉得才说明模型真的理解了用户的要求,而且有一定的泛化能力。

测试方法:

控制变量:同一张参考图(ICL)+ 同样的提示词(Prompt)。

模型横评:Gemini 3 Image Pro、ChatGPT Image、混元图像 3.0、即梦 SeedGream 4.0、即梦 SeedGream 4.5 同台竞技。

难度递进:基础到升级再到噩梦,逐步逼近能力边界。

一锤定音:只看首次生成的结果,不抽卡,不挑选。(即梦一次生成四张,所以会挑 4 张里最好的,这是即梦的产品设计,用户自己实际使用时也会这样选。)

注,为了节约篇幅:

1、后面Gemini 3 Image Pro 简写为:Gemini 3;

2、ChatGPT Image 简写为 GPT;

3、混元图像 3.0 简写为 混元 3

4、即梦 SeedGream 4.0 /4.5 分别简写为 即梦 4 和即梦 4.5

所有的 Case 都有配有原图。

10K 的大图可以后台发送「混元测试」获取完整测评结果。

我们现在开始。

Case:P-KeyAttr(关键属性修改)

这个维度通过最常见的静物摄影,考察模型的对于关键属性的调整只改我想改的地方,而不破坏画面的其他部分。

参考图:一篮子红苹果放在木质野餐桌上,桌上还散落着两个苹果,背景是公园草地。

打开网易新闻 查看精彩图片

基础难度:把篮子外面的两个苹果改成绿色,篮子里的苹果保持红色

打开网易新闻 查看精彩图片

所有模型都具备了基础的语义级的遵循能力,识别出篮子外和篮子内的区别,没有出现某一对全变绿这样的低级错误。

但在真实性上,Gemini 3 会好于其他模型,混元改动之后有点像茄子,即梦的有点像塑料苹果。

升级难度:把所有苹果改成渐变色,从顶部的绿色过渡到底部的黄色,保持自然的水果质感

打开网易新闻 查看精彩图片

这个 Case 下,模型们对自然语言的理解开始出现分歧了。

这一题难在渐变。要求模型理解颜色的分布逻辑,以及真实世界的理解力。

  1. 几乎所有模型都调整了外边两个苹果的颜色,但 GPT 和即梦4 并没有遵循好绿黄渐变;

  2. 只有三个模型完整遵循了苹果改成绿黄渐变色的要求,分别是 Gemini 3 、混元3 和即梦 4.5;但除了 Gemini 3 以外,其他都比较像塑料。

噩梦难度:把左边的苹果改成透明水晶材质,右边的苹果改成金属铬质,篮子里的保持红色,每个苹果都有真实的材质反光效果。

打开网易新闻 查看精彩图片

全员翻车,但翻得各有各的特点。

在指令遵循上,最好的还是 Gemini 3 和混元 3,测到这里我不禁感慨技术选型真的有优势。

GPT 和即梦系列都把篮子给改了。

接下来就在 Gemini 3 和 混元3 矮子里面挑大个,真实性上 Gemini 3 比较好,但遵循能力上,混元 3 更强。

看完这个 Case ,你可能就会有一种感觉…

结论

如果你要给一些保密的商品生图,混元的能力在一定程度上已经就位了。

Case:P-OtherAttr(次要属性修改)

这个维度考察模型对刚体结构和硬表面复杂材质的理解。

相比前面的苹果换色,给汽车做旧、轮胎漏气、加装甲,涉及到了更多自然世界以及几何结构的改变(比如凹陷、锈蚀)和多个物体的空间组合(如车顶架)。

参考图:一辆崭新的银色轿车停在现代停车场,车身光洁如新,背景是玻璃幕墙写字楼,地面干燥。

打开网易新闻 查看精彩图片

基础难度:给汽车车身添加明显的锈迹和划痕,让车看起来有十年车龄,保持车的位置和背景建筑不变

打开网易新闻 查看精彩图片

感受挺明显的,因为并不是所有模型都分得清「生锈」和「上色

除了 GPT 以外,其他模型都干得不错。GPT 的感觉像是被熊孩子刮花了侧门然后冲进黄泥水里面转了一圈,车前盖干净如新就和刚换了一样…

升级难度:给汽车添加严重的破旧效果,包括大面积锈蚀、车窗破裂、保险杠凹陷、轮胎瘪气,车身布满灰尘和泥点,但保持停车场环境干净整洁

打开网易新闻 查看精彩图片

难点在于轮胎瘪气和保险杠凹陷这种组合性的要求。

车子不能因为轮胎瘪气而下降,动作要有所变化,略往前倾,这样才符合物理规律。

这个 Case 下,严格来说没有一个模型100% 遵循。

但表现最好的是即梦 4和 GPT。但 GPT 的凹陷非常不明显,即梦 4 的前车灯额外做了破裂,还自作主张画了停车线…

噩梦难度:把汽车改造成末日废土风格,车身锈迹斑斑并焊接着临时装甲板,车顶加装防护栅栏和备用油桶,轮胎外包裹铁链,车窗用铁板加固,但停车场和写字楼背景保持现代干净的状态形成强烈反差

打开网易新闻 查看精彩图片

这个要求考察点是矛盾指令,前景是废土风格,但要求保持其他部分的一致性。

在这个 Case 中,一致性遵循表现得最好的是腾讯混元 3.0 ,Gemini 和 即梦都给这辆车定性成了本田…

不知道是触发了什么刻板印象。

Gemini 车窗只加固了副驾,即梦不但在前盖上加了个排气孔,还自作主张在地面上画了线,旁边多停了一些车。

从这个 Case 里,混元仍然体现了很强的指令遵循性以及内容一致性。

在处理工业品和修改硬表面时,混元 3 和 Gemini 3 能位列第一梯队

尤其是混元 3 对瘪气这种物理状态的刻画有点惊喜。

结论

  • 游戏资产生成(同一辆车的损毁状态变体,三角洲游戏快用你们自家的混元试试)

  • 影视后期(干净的实拍素材上叠加战损效果)

Case:P-Noun(物体替换)

这维度考察模型在保持原始场景透视、光影氛围的前提下,无中生有的能力。

难点在于交互逻辑融合度:东西不仅要放上去,还要放得相对合理(比如书要朝向读者),而且光影要和阴雨天+环境光匹配。

参考图:一张深色木质餐桌摆在咖啡馆靠窗位置,桌面空空如也,窗外是街景,桌旁有两把椅子

打开网易新闻 查看精彩图片


基础难度:在桌子中央添加一个冒着热气的白色咖啡杯,杯子旁边放一本打开的书

打开网易新闻 查看精彩图片

这个 Case,热气是考点,书的朝向也是关键。

所有模型都把东西放上去了,但质感差距很大。

Gemini 3 还是标杆的存在,书的朝向,咖啡杯的尺寸都非常拟真,相对来说,GPT 和 即梦 4.5 就有点奇怪。

混元图像 3.0 的朝向虽然是对的,但看起来像人在看厚厚的字典。

升级难度:升级难度:在桌上添加一套下午茶用具,包括英式茶壶、两个茶杯、三层点心架(上面有马卡龙和小蛋糕),还有一个小花瓶插着鲜花,物品摆放要符合下午茶的典型布局

打开网易新闻 查看精彩图片

这个 Case 重点考察多物体组合导致的空间拥挤的管理。

要在这么小的桌面上放这么多东西,还不能穿模,还要符合下午茶规矩。

GPT遵循性翻车。它为了画清楚细节,直接改变了构图推进相机,导致焦距混乱。

即梦 4 杯子数量错了,Gemini 3 整体感觉最好,而混元 3 是唯一一个生成内容里面保留桌上原有的调味粉的模型。

噩梦难度:在桌上布置一个微缩景观模型,包括迷你山脉、小树林、流动的溪流、一座日式小桥和禅意石头,整个场景像是一个精致的盆景艺术品,要有景深层次感和真实的材质细节

打开网易新闻 查看精彩图片

这个 Case 主要考察大模型对多元素的控制在桌面这个有限空间里面,构建包含山、树、水、桥、石的完整微缩世界,同时保持场景的逻辑和材质真实感。

大部分模型都在一定程度上翻车了。

还是一样的问题,GPT 的遵循性太差了,当指令复杂度超过他管理的阈值时,ChatGPT会牺牲原场景约束来完成生成任务。

从整体构图的角度来看,遵循性最好的依旧是 Gemini 3 和混元 3,即梦 4.5 为了内容合理性也调节了拍摄角度。

但从生成内容的角度来看,只有 Gemini 3 和 GPT 相对完整实现了微缩景观,其他模型都没有添加底座,即梦的模型对于「森林」也没有遵循好。

结论

混元3比较适合产品概念设计,还有一些影视的概念设计,对自然世界理解力不足,最好避免在教育和科普类场景使用。

P-Action(动作改变)

这个维度考察的是:高保真的局部重绘与动作生成

考察大模型在保持背景(客厅)和主体特征(橘猫)不变的前提下,大模型能否精准控制主体的复杂动作(跳跃、站起)然后和新物体(毛球、气球)产生合理的物理交互

参考图:一只橘色短毛猫趴在客厅沙发上,四肢蜷缩,眼睛半闭,背景是温馨的家居环境,有书架和落地灯

打开网易新闻 查看精彩图片

这个维度考察的是:高保真的局部重绘与动作生成

考察大模型在保持背景(客厅)和主体特征(橘猫)不变的前提下,大模型能否精准控制主体的复杂动作(跳跃、站起)然后和新物体(毛球、气球)产生合理的物理交互

基础难度:猫从趴着改成坐立姿势,前爪并拢放在身前,头部抬起看向前方,保持在沙发上的位置和背景环境不变

打开网易新闻 查看精彩图片

这个 Case 核心考察对猫咪姿态修改的稳定性,需要在不破坏猫咪特征和整个场景的前提下,完成从趴着到坐着的简单动作的切换。

在这种场景下,其实每个模型做的都挺不错的。

在细节上面的 Gemini 3 和混元3对于猫的还原比较完整,其他的模型猫咪的脸部变化都挺大的。

升级难度:让猫做出跳跃半空的动作,四肢伸展,身体呈弧线,像是在扑向空中的一个毛球玩具(也要在画面中),猫的毛发要有动态感,背景保持不变

打开网易新闻 查看精彩图片

这里的核心考察的点是,对于这种高动态瞬间的捕捉能力,以及两个物体之间的互动。

考察模型能不能通过凭空生成小猫的四肢,以及完善小猫和毛球之间的交互细节。

最后整体看下来,相对完美的达成的只有即梦4,其他的模型都有一些小小的问题。

比如说 Gemini 3 没有达成四肢伸展、GPT 的动作很奇怪,而且身体也没有呈弧线,混元3 的问题是小猫的比例失调,即梦 4.5 的问题是背景没有保持一致(镜头角度变化了)。

噩梦难度:让猫做出杂技表演动作,后腿站立在沙发扶手上保持平衡,前爪高举抓着一串彩色气球,尾巴翘起用于平衡,表情专注,同时在沙发周围散落几个小球和玩具,营造出猫在表演马戏的氛围

打开网易新闻 查看精彩图片

这个 case 的关键点在于动作控制(动物拟人)加上特定位置的控制(沙发扶手)。

唯一一个完成任务的只有即梦 4,其他的模型全部都在沙发扶手这个要求下发明翻了车。

在这个 Case 下,即梦4的平衡性最好

它既做到站在扶手上这个精准位置约束,同时最大限度保留了原图的背景和沙发材质。

结论

如果你需要大模型对空间位置精确处理的话,用混元 3 可能要多次抽卡才行。

S-Noun(场景元素修改)

这个维度考察的是:全局的材质替换与空间结构的保持

核心在于考察大模型能不能在保留原图的空间关系(山坡地形、树木分布、远近透视)的前提下,对场景中的核心元素进行改造。

参考图:一片茂密的松树林在山坡上,高大的松树笔直生长,地面铺满松针,阳光从树冠缝隙洒下,远处是连绵山峦。

打开网易新闻 查看精彩图片

基础难度:把所有松树替换成竹林,保持树木的密集程度和山坡地形,竹子挺拔修长,竹叶茂密,地面铺满竹叶,光影效果保持

打开网易新闻 查看精彩图片

这个 Case 核心考察的是同类材质的替换能力

因为松树和竹子都是细长的垂直元素,模型需要做的是识别树干位置,然后替换纹理,同时保留那标志性的丁达尔效应。

在这个场景下,所有模型基本都完成了任务。

但在逻辑调整上,即梦 4.5即梦 4表现最好,他们对于落叶的处理更为合理,即梦 4.5 对竹子在斜坡上的表现更为自然,而 Gemini 3 底下仍然是松针,倒下的依然是松木,GPT 直接把下方的枝干干没了。

即梦 4 和 即梦 4.5 对倒伏的树干处理得更为优雅,特别是即梦 4 ,能看出来换成了竹子(虽然看起来像是树)。

升级难度:把松树林改造成日本枫树林,树木是红色和橙色的枫叶,树干弯曲优美,地面铺满红色落叶,增加几块青苔石头和一条小石径,营造秋季枫叶季的氛围

打开网易新闻 查看精彩图片

接下来是升级的难度。

这里的核心考点涉及到对内容的改变。原图的松树是笔直的,而指令要求枫树变弯曲。

模型需要保持构图的同时,把直线变成曲线,还要加入小径。

这里差异就开始出现了。

这个 Case 下,表现好的是 Gemini 3,不但保持了页面构图,还因为前景的变化改变了背景中的植被(远山的树木)。

混元 3虽然做出了弯曲,但树干有点用力过猛,不太自然。

GPT氛围很好,但树木太多把阳光干没了…

即梦 4这里的处理比较高级,它不仅把树干变弯了,而且保留了左高右低的山坡地形,石头和小路的植入也比较符合透视逻辑,没有破坏原图的空间感。

噩梦难度:把整个森林改造成外星植物群落,树木变成发光的紫色蘑菇状巨型植物,高度参差不齐,表面有生物荧光纹路,地面生长着蓝绿色的发光藓类,空气中漂浮着发光粒子粒子,远处山峦改造成晶体状的矿物山体

打开网易新闻 查看精彩图片

这个 Case 的关键点在于超现实材质的想象力和对细节指令的响应(远处的晶体山)

关键测试模型的想象力,能不能把树变更成巨型蘑菇,把山变更到晶体。

在这个难度下,混元 3 对指令遵循能力最强,所有的要求都达成了。

其次是即梦4.5,不但保持了阳光,整体构图也相对完整。

Gemini 3 就有点拉了,背后还是松树…是几个模型里面最没有想象力的一个。

GPT 有点过了,又开始自己演绎,真的就是听话听一半的心累感。

结论:如果你是游戏场景概念设计,或者影视的美术,要做 concept ,主推还是混元 3。

S-Attr(场景属性修改)

这个维度考察的是:全景的光影修改能力

考察大模型能否在保持建筑物结构透视(强约束)的前提下,对环境光线(白天转黑夜)、天气材质(干燥转湿润/雾气)以及氛围感(赛博朋克)进行重构。


参考图:一条现代城市街道在正午阳光下,天空湛蓝无云,路面干燥,两侧是商铺和咖啡馆,行人稀少,光线明亮

打开网易新闻 查看精彩图片

基础难度:把场景改成傍晚时分,天空出现橙红色晚霞,街灯开始亮起暖黄色灯光,商铺窗户透出室内灯光,地面有长长的影子

打开网易新闻 查看精彩图片

这个 Case 核心考察的是全局色调迁移光源逻辑重构

模型不仅要换个天空背景,地面还必须根据新的光源位置生成合理的「长投影」,同时建筑物的固有色要受环境光影响。

在这个Case 下,所有模型的长投影都错了。

但是所有模型都能做好玻璃幕墙对天空的反射,以及白平衡。

画面呈现上,混元 3 和 即梦 4处理得更好一些,ChatGPT的饱和度略高,有点过于美化了,Gemini 3 把人弄没了,可能它觉得晚上大家得回去吃饭。

升级难度:把场景改成雨夜,天空漆黑,街道湿滑反射着霓虹灯光和街灯,路面有积水和水坑倒影,商铺橱窗光线透过雨雾变得朦胧,空气中有雨丝

打开网易新闻 查看精彩图片

这里的核心考察点是从「漫反射材质」(干路面)到「镜面反射材质」(湿路面)的转换,以及对光源在潮湿环境下的晕染处理。

整体看下来,GPT在这里的质感表现是统一度最高的。路面的湿润感、水坑的分布以及光线的反射都非常写实。关键是,GPT 是唯一一个让行人打伞的模型。

Gemini 3 这一轮表现不够好,一方面是行人全消失了,另一方面是地面处理得不好,有点像没有干的沥青混水,缺乏随机的水坑。

即梦 4和 即梦4.5的天空太干净了,不像雨夜。

朦胧的感受上, Gemini3 和 混元 3 表现得最好。

噩梦难度:把场景改造成重度雾霾天气的神秘氛围,街道笼罩在浓重的紫色雾气中,能见度很低,只能看到近处的轮廓,街灯光线形成明显的丁达尔光柱,商铺的宽虹灯在游戏中形成光晕,地面湿润反光,空气中漂浮细微颗粒物,营造出赛博朋克式的压抑感

打开网易新闻 查看精彩图片

这个 Case 的关键点在于体积光的生成(丁达尔效应)以及纵深感的压缩(要看不见远处)。

这是一次对渲染引擎物理推理能力的高要求测试。

在这个难度下,Gemini 3就是版本答案。

Gemini 3 对远处雾气的处理,真的做到了能见度很低,而且街灯的逻辑是对的,也很有赛博朋克的压抑感。

其他模型的街灯在乱摆,有些模型只开了一半的灯。

GPT 虽然很艺术,但它中间的噪点加得莫名其妙。

结论:

如果你要实现电影级的需求,那 Gemini 3 确实强。

因为这个 Case 对其他模型而言,都不那么擅长。

P-Action(场景动态改变)

这个维度考察的是:环境重构与透视保持

考察大模型在面对从不同程度递进的需求时,能不能在不破坏街道透视关系和两侧建筑结构的前提下,合理地填充要求(车流、人群、洪水、碎片)并处理好光影。


参考图:一条现代城市街道在正午阳光下,天空湛蓝无云,路面干燥,两侧是商铺和咖啡馆,行人稀少,光线明亮

打开网易新闻 查看精彩图片

基础难度:在街道上添加中等密度的车流,包括轿车、公交车和出租车,车辆分布在三个车道,有适度的运动模糊效果

打开网易新闻 查看精彩图片

这个 Case 核心考察的是最基础的填充与运动感表达。AI 需要在空白的路面上画出符合要求和透视关系的车辆,然后加上动态模糊。

在这个场景下,各家模型基本都勉强及格,区别主要在于对运动模糊的理解。

三个车道是我给 AI 挖的坑,因为一些数学不好的 AI 模型会生成 4 条车道。

所以从这个角度来看,结果最好的是 GPT 和 即梦 4.5。

但在画面逻辑上,表现最好的是 混元 3 和 即梦 4。

为啥呢?

因为 Gemini 3 和 GPT 的车道线也虚化了。

虽然车是运动的,但拍摄者是静止的,所以地面上的车道线也应该静止。

而即梦 4.5 的问题是,右侧的公交车逆行了。

升级难度保持原图背景不变的情况下,在街道上同时添加密集车流和人群,车流处于高峰期缓慢移动状态,人行道上有大量行人快速穿梭,十字路口有人在过马路,画面要体现城市的繁忙动态感,人和车都有自然的运动姿态

打开网易新闻 查看精彩图片

接下来是升级难度,又是一个几乎都小小翻车的场景。

这个 Case 核心考察高密度素材填充下的一致性

当画面内容很密集的情况下,模型很容易为了放得下这么多人然后擅自改变相机的机位。

即梦4.5 确实直接改变了机位,而其他四个模型保持不变。

一致性表现得最好的,是即梦 4,其次是 混元 3。

Gemini 3 的斑马线不见了,GPT 在别人公司门口塞了好几个红绿灯。

噩梦难度:在街道上创造极端天气下的灾难场景,狂风暴雨中树木摇摆,广告牌被吹飞、垃圾桶滚动,洪水形成激流冲刷路面

打开网易新闻 查看精彩图片

这个 Case 的关键点在于全图的氛围渲染和逻辑合理化

既要毁掉这条街(加水、加雷电、加飞天广告牌),又得让我们认出这还是原来那条街。

几个模型都很嗨。

其中 GPT 和 Gemini 3 的视觉冲击力最强,电影感最足。

但 Gemini 3 的离谱之处在于,都这程度了,右边的人还能这么淡定喝咖啡。

即梦的问题在于天上的广告牌太离谱,而且画面太干净,行人走出了汽车的水花。

简而言之就是没太有逻辑。

混元 3在这块表现相对克制许多。

结论:

如果你希望做电影感,GPT 是更好的选择,但你如果需要兼顾画面逻辑,那可能还是需要 Gemini 3 和混元这些 LLM Base 的模型。

Scene-Noun (整体场景转换)

这个维度考察的是:结构保持,内容重组

简单来说,就是在结构不变的情况下,把里面的内容合理化重构。

参考图: 一间明亮的现代办公室,白色墙壁,落地窗,简约办公桌椅,电脑显示器,绿植,地板是浅灰色地毯

打开网易新闻 查看精彩图片

基础难度:把办公室改造成传统中式书房,墙壁换成木质护墙板,办公桌换成红木书桌,椅子换成圈椅,电脑换成笔墨纸砚,添加书架和字画,地板改成青砖地面

打开网易新闻 查看精彩图片

这个 Case 核心考察的是材质替换的准确性。

所有的物体都需要一一对应:现代桌→红木桌,电脑→笔墨,地毯→青砖,同时你还不能把房间券格局改了。

结果是 Gemini 3 留下,其他全Out

没啥好说的,其他的模型都没有完整基于框架生成。

升级难度:把办公室改造成维多利亚时代图书馆,墙壁改成深色木质书架直达天花板,摆满古籍,办公桌换成雕花写字台,椅子换成绿色皮质座椅,添加壁炉、铜质台灯、地球仪,地板换成深色木地板配波斯地毯,落地窗换成彩色玻璃窗

打开网易新闻 查看精彩图片

接下来是升级难度,主要考察复杂纹理的适配。

原本通透的玻璃窗要变成花哨的彩色玻璃,原本的大白墙要变成复杂的书架。

空间遵循能力上,Gemini 3、GPT、混元 3相对较好,即梦系列墙角方位改变。

混元 3 对植物保留意外的好,植物基本上都保留在原位了。

噩梦难度:把整个办公室改造成水下科研站观察室,墙壁变成巨大的透明玻璃舱壁能看到深海环境,外面游动着发光水母和深海鱼类,办公桌换成金属控制台配备全息投影显示器,椅子换成太空舱式座椅,天花板有管道和仪表,地板是金属格栅,舱内有蓝色应急灯光和气泡柱,营造深海基地的科幻氛围

打开网易新闻 查看精彩图片

这个 Case 的关键点在于整个环境光照的重构

室内原本是日光照明,现在要变成深海幽蓝的冷光源,然后墙体要变成透明的耐高压玻璃。

这个 Case 下,混元 3 胜出。

在设备位置层面,Gemini 3 和混元 3 都保持了工位的一致,但 Gemini 3 居然能在水下种树…

GPT 的问题在于水下不应该有直角的玻璃。

即梦系列的不但没有遵循工位和结构的约束,这个看起来像是在水族馆里。

结论:

如果你需要对实拍照片进行严格的风格迁移,那 Gemini 3 几乎是你最佳选择,其次就是混元 3 。

混元 3 支持私有化部署,如果你是建筑设计公司,有保密需求的,真·推荐你私有化部署一套混元。

如果大家感兴趣,我写一写如何私有化部署一套 640 B 的模型。

Scene-Attr(场景氛围改变)

这个维度考察的是:光影重塑和新的纹理覆盖

考察大模型在完全保留空间几何结构(走廊透视、门框位置)的前提下,通过改变光照源(把顶灯关掉换成应急灯)和叠加表面纹理(污渍、破损),来实现从治愈到致郁的情绪转变。

参考图:一条现代医院的走廊,白色墙壁,明亮的日光灯照明,干净的地板,两侧是病房门,氛围平静专业

打开网易新闻 查看精彩图片

基础难度:把走廊改成夜晚值班时段,大部分日光灯关闭只剩应急灯亮着,光线昏暗,墙壁和地板的阴影加深,营造安静冷清的深夜氛围

打开网易新闻 查看精彩图片

这个 Case 核心考察的是对光源的精准控制

原图是全亮的漫反射环境,现在要求模型能够识别出天花板上的灯是光源,然后关灯,同时要增加点光源(应急灯)。

这个 Case 每个模型都存在一些问题,我来细数一下。

1. Gemini 3 的问题在于缺少了应急灯。

2. GPT 的问题在于灯光没了,但灯光倒影还在。

3. 混元 3 效果不错,但是右侧见光不见灯。

4. 即梦 4的问题是关灯了但是还是白天。

5. 即梦 4.5 的表现相对来说最好,但丢失了顶部应急灯的地面反射。

升级难度:把走廊改造恐怖片氛围,灯光闪烁不定,墙壁斑驳老旧,有水渍和裂痕,地板积水反光,一扇病房门虚掩着透出诡异的绿光,走廊尽头笼罩在浓重阴影中

打开网易新闻 查看精彩图片

接下来是升级难度,考察局部光效和雾效

这个 Case 下面,Gemini 3 效果最佳,然后是 GPT,因为GPT 丢失了后面的细节。

混元 3 效果不错,但遗憾的是左边的门没有遵循原图。

即梦系列也都相当不错。

不过 混元 3,即梦系列的问题都是保留了人。

都啥时候了,还上班呢………

噩梦难度:把走廊造成极致恐怖的废弃精神病院场景,墙壁大面积剥落露出砖块,布满涂鸦和血迹状污渍,天花板部分坍塌露出钢筋,地板破损积满污水和碎片,病房门损坏歪斜,从门缝透出忽明忽暗的冷光,走廊中央散落着翻倒的轮椅和医疗设备..

打开网易新闻 查看精彩图片

这个 Case 的关键点在于破坏再重建

模型不仅要加元素(污渍),还要改场景(天花板坍塌、露钢筋),同时还要加道具(轮椅)。

这一轮,感受上 Gemini 3 和 GPT 非常好,国产的模型统一的问题还是画面太过于干净了。

结论:

如果你追求极致的画面质感和电影级的光影氛围(比如做恐怖片的分镜),

Gemini 3 依然是首选,它的审美在线,生成的图直接能用。

Shot(镜头变换)

这个维度核心考察的是两点透视的构建

参考图:一栋 Bauhaus 风格的办公楼正面照,平视角度拍摄,建筑占据画面中央,前景是一块草坪,草坪上有设计感的雕塑,晴天

打开网易新闻 查看精彩图片

基础难度:把视角改成门前低角度仰拍,相机位置在地面约1米高向上拍摄,建筑呈现向上汇聚的透视效果,天空占据画面上半部分更多,建筑显得更加宏伟

打开网易新闻 查看精彩图片

原图是平视(一点透视),变成仰视需要让垂直线条在顶部汇聚起来。

虽然我觉得都不满意,因为所有模型都没有做好门前低角度的仰拍。

非要矮子里面挑大个的话,那就是 Gemini 3,其他模型都当没听见。

特别是即梦 4.5 甚至反向操作,产生了新的畸变。

升级难度:把视角改成无人机高空俯拍,相机在建筑顶部上方约50米处向下俯视,能看到建筑的屋顶结构,前方广场的全貌,周围街道和临近建筑的布局,采用鸟瞰图的构图方式

打开网易新闻 查看精彩图片

这个 Case 核心考察的是逻辑推理与脑补(Inference)

原图只有正面,AI 根本不知道屋顶也是什么样,也不知道楼后面有什么。

然后它必须根据「包豪斯风格」这个提示词,推理出「这应该是个平顶的建筑」

这一个 Case 下,表现最好的是 Gemini 3,遵循性较强。

GPT 和 混元3 的问题在于拉得太低,不像是 50 米(17 层楼俯瞰),像是十楼左右往下看。

混元 3 对于雕塑的位置处理不足。

即梦系列模型表现相对刻板了,它并没有理解这个是一个平顶的建筑。

噩梦难度:把视角改成极限的蚂蚁视角超广角仰拍,相机贴近地面仅10厘米高度,使用鱼眼镜头效果,建筑呈现极度夸张的透视变形向天空延伸...

打开网易新闻 查看精彩图片

这个 Case 的关键点在于光学畸变模拟

不仅仅是换角度,更要模拟「鱼眼镜头」那种圆形的成像圈和边缘的拉伸感。

这里出现了两个明显的翻车选手:

1. Gemini 3并没有完全没理解什么是鱼眼镜头,居然还画了一个莫名其妙的白色雕塑,把镜头效果理解成了画面内容。

2. GPT 看起来还不错,但畸变不足。

3. 混元3 的畸变处理良好,但只是拉伸了画面,没有做成圆形的鱼眼边框,属于审题不严。

4. 即梦系列的无力吐槽。4.5 甚至还加了一只蚂蚁。

哎,蚂蚁视角 ≠ 要加蚂蚁啊!

不然我真的很期待你生成老婆饼会画出来什么。

结论:

总结起来,这个场景下各家模型的表现都差强人意,或多或少存在理解偏差或处理不到位的问题。可能需要针对具体的需求多次抽卡。


Style (风格转换)

这个维度考察的是:人像特性保持下的风格转换

风格转换不仅仅是加个滤镜。

高阶的风格转换要求模型理解原图语义,然后换一个视觉语言(笔触、线条、时代服饰)把这个语义重新讲一遍,同时还要让观众一眼还原。

参考图:IU 《21 世纪大君夫人》官方宣传剧照

打开网易新闻 查看精彩图片

基础难度:把照片转换成梵高后印象派油画风格,保持人物轮廓和构图,使用厚重的笔触,鲜明的色块,典型的梵高式旋转笔触,背景变成蓝绿色涡旋纹理

打开网易新闻 查看精彩图片

这个 Case 核心考察的是纹理合成与面部保护

怎样在脸上堆满油画笔触,却不把脸画烂,是个技术活。

这个环节 Gemini 3 和 GPT 继续领跑,效果非常赞。

国产模型里,混元3 遵循性比较好,即梦系列的过于扁平。

升级难度:把照片转换成吉卜力工作室动画风格,人物变成手绘动画角色,保持五官特征但简化线条,使用水彩质感的色彩,眼睛变大更有神采,添加动画特有的高光和阴影处理

打开网易新闻 查看精彩图片

升级难度,考察二次元化与特征抽象

美观度由 GPT 领跑(符合我的审美),遵循性也很不错。

Gemini 3 反而对吉卜力风格的把握不够精准,国产模型虽然能做好动漫设计,但对效果把握又不足。

噩梦难度:把照片转换成中国宋代工笔画风格,人物变成古代仕女形象但保留现代人的面部特征,穿着改成精致的宋代服饰,头发梳成古代发髻配饰钗环,使用细腻的线描勾勒五官和服装纹理,色彩采用矿物颜料的典雅色调如朱砂红、石青、石绿,背景改成水墨渲染的留白构图,添加工笔花卉装饰边角

打开网易新闻 查看精彩图片

这个 Case 主要测试的是大模型的风格迁移能力和细节的遵循性。

结果来看,混元 3 在提示特征遵循性上表现最好。

最明显的证据:IU 左侧的长发,只有混元 3 和即梦 4 生成了,混元 3 更完整一些。

Gemini 3 和 ChatGPT 都把发型改成了对称的古典发髻。

混元 3 保留了长发这个特征,背景的工笔画花卉边角也不错。

虽然即梦 4 也做到了这点,但并不是工笔画,而是水墨。

即梦 4.5 不但丢失了长发这个细节,工笔画的规则也没有遵循好。

但从视觉呈现看:

Gemini 3 和 GPT 更抓眼球,细腻程度最高(但不国风),有一种唐人街挂画的感觉。

结论:

在这个 Case 下,我个人觉得混元 3 无论是遵循性还是效果,都相当不错。

Comp(组合能力)

这个维度考察的是:多物体局部重绘和语义一致性

这个是最难,最关键的维度。

而且是雷达图里,混元最弱的一项。

考察大模型能不能在记住保持原图布局的同时,一次性往里面塞进 3-5 个互不相关的物体(机器人、兔子、长椅、烟雾),并且还要保证这些物体之间的大小比例、透视关系和光影一致。

参考图:一个整洁的家庭花园,修剪齐整的草坪,几棵小树,花坛里开着鲜花,小石径通向远处,晴天

打开网易新闻 查看精彩图片

基础难度:在花园中央添加一个银色的人形机器人,机器人手持浇水壶正在给花坛浇水,机器人高度约1.5米,具有明显的机械关节和金属质感

打开网易新闻 查看精彩图片

这个 Case 核心考察的是材质融合与物理交互

机器人必须看起来是站在草地上的,金属表面要有环境光的反射(绿草、蓝天)。

怎么说呢,Gemini 3 和 混元 3的机器人勉强算个矮子,其他的机器人像 1 米 5的吗?

这个属于几乎全军覆没的 Case。

基础强度 Case 尚且如此…

升级难度:在花园中添加一个蒸汽朋克风格的机器人在修剪灌木,机器人身上有铜制齿轮和蒸汽管道,一只手是剪刀工具,背部有小烟囱冒出蒸汽,同时在草坪上添加两只白色兔子在玩耍,远处的树下放置一张铁艺长椅

打开网易新闻 查看精彩图片

这个 Case 难度骤增,考察细粒度属性控制

重点检查:「一只手是剪刀工具」

这属于非标准结构生成,由于模型训练集的原因,大部分模型很容易画成普通的手拿着剪刀,或者直接画两只手。

混元 3 是唯一一个真正理解了一只手是剪刀工具的模型。

可恨的是他并没有在修剪…

至于其他的模型,翻车就完事了。

噩梦难度:在花园中创造一个奇幻场景:中央添加一个半透明的花仙子悬浮在空中挥舞魔法棒,魔法棒尖端发出金色星光粒子洒向花朵,花朵瞬间绽放出彩虹色光芒,同时在草坪上添加三个发光的蘑菇圈,蘑菇高约50厘米呈现蓝紫色荧光,一只橙色的狐狸戴着小帽子坐在长椅上看书,天空中漂浮着几个透明泡泡反射着彩虹光,整个场景要有童话般的梦幻感同时保持花园的基本布局

打开网易新闻 查看精彩图片

这个 Case 是终极考验:复杂堆叠下的细节丢失率

我们需要检查:仙子是否透明?蘑菇是否发光?蘑菇圈是不是 3个?最难的是:狐狸是否戴了帽子并且在看书?

这个 Case 下,只有 Gemini 3 是语义理解的真神,其他的模型对于描述的遵循能力仍然差异巨大。另一个能理解蘑菇圈的,就只有混元3…

结论:

别太过指望大模型能理解各种独特且复杂的请求…

综合测试 (Comprehensive Test)

这个 Case 是本次评测的最终大 Boss

这个 Case 是本次评测的终极考题,它考察的是:多语言文字编辑能力 + 复杂环境光影叠加 + 动态模糊与反射的物理渲染。需要大模型在复杂的限制条件下产出可用的图像。

参考图:图片引用自互联网,原作者为:@胡楠川。

打开网易新闻 查看精彩图片

第一关:把招牌上的所有地名和品牌进行替换(精准文字控制)

这个 Case 核心考察的是精准的局部重绘与文字渲染

打开网易新闻 查看精彩图片

难点在于:

  1. 多语言混合:同时处理中文、拼音、韩文。
  2. 品牌色替换:蜜雪冰城(红)变星巴克(绿)。
  3. 背景融合:改了字还得保留霓虹灯的发光质感。

王者就是 Gemini 3,接下来就是 混元 3 。

Gemini 3 太绝了,人家的 LOGO 你也学会???

混元3 的文字有涂抹感,这里我要替混元辩解一下,Gemini 3 生成的是 4k 图,混元只有 1k,所以文字有涂抹是可以理解的…

第二关:环境改为雨夜并通过公交车窗拍摄(材质与光影物理)

这个 Case 考察的是图层叠加与光照

打开网易新闻 查看精彩图片

这一把模型不需要改字了,但需要在原图前面加「一块带水的玻璃」

一致性上,表现得对号的是GPT,然后是混元 3。 即梦 4 在车窗上贴了俩字,Gemini 3 换了个拍摄角度。

第三关(噩梦难度):行驶中的公交车、电子屏镜像、车灯扫过、动态模糊(极高密度信息处理)

这个 Case 考察的是混沌管理

打开网易新闻 查看精彩图片

要在画面里塞进:暴雨、动态模糊(车在动)、内部反射(车内LED屏倒影 + 文字)、外部强光(车灯)。通常模型处理这么多干扰源很容易崩坏。

这个 Case 几乎没有模型能赢………

因为车内对于 LED 的反光,应该是反向的。

反向的文字 + 多国语言 + 积水效果…

有一个算一个,全翻。

04|适用边界:什么场景用它

基于上面的测试,我整理了一个适用性矩阵:

打开网易新闻 查看精彩图片

如果你是做「工业视觉」

建议首选:腾讯混元 3.0

在测试中我发现,混元有一种「死磕结构」的执念

  • 苹果变水晶,篮子不动;

  • 办公室变海底,工位不动;

  • 街道变洪水,楼房不动。

这种特性在电商(SKU 生成)、家装(风格迁移)、工业设计(材质预览)领域是非常重要的。

因为客户要的是「我的产品换个颜色」,而不是「给我画一张新的产品图」。

如果你是做「泛娱乐」

如果你追求的是「第一眼惊艳」,用户只是想生成一张好看的壁纸、头像,不在乎车是不是那是那辆车,楼是不是那栋楼,建议首选:ChatGPT Image 。

因为 GPT 的审美和画面张力(虽然偶尔会由于构图变化导致不像)更适合创作场景。

如果你要…「私有化部署」

如果你是设计公司,或者是对数据隐私极其敏感的国企/车企,混元 3.0 可能是你目前唯一的选择。

GPT 和 Gemini 再强,你的数据也得合规。

而混元是支持私有化部署的。

这意味着你可以把这套「懂物理、懂结构」的模型,搬到你们自己家服务器上,专门训练一套「汽车外观质检」或者「楼盘夜景生成」的专用模型。

05 | 为什么这次不一样

开源图像模型很多,为什么混元图像 3.0 值得单独拿出来讲?

这要回到开头我提到的那个问题:为什么腾讯突然变得这么激进?

第一,效果真的够用了

看完前面的横评你应该有感觉:这个模型基于架构优势,在部分场景能和 Gemini 3、ChatGPT 打平手,在物理材质重构结构保持这两个维度上甚至有局部优势,天平开始向开源模型倾斜了。

第二,架构选择藏着野心

前面讲过,混元图像 3.0 用的是统一自回归架构,把图像拆成 token 来处理,和 LLM 的思路一脉相承。

这条路被验证之后,意味着:

  • 可以无缝扩展到视频生成

    (图像 token → 视频帧序列,天然支持时序建模)

  • 可以和 LLM 共享基础设施

    (训练框架、推理引擎、优化工具,一套代码打天下)

  • 多模态融合更简单

    (文本、图像、视频,都是 token,都能塞进同一个 Transformer)

腾讯选这条路,可以仿照 Google ,达成未来整个多模态生态的统一

第三,开源诚意拉满

80B 参数完全开放,代码、权重、蒸馏版,全都给了。

官方还同步放出了Distil 版本:原本需要 50 步采样的流程,压缩到 8 步,效率提升 6 倍,推理成本直接砍下来不少。

腾讯要的是生态,越多人用混元,越多人基于混元开发应用,腾讯云的调用量就越大,腾讯在 AI 内容生产这条赛道上的话语权就越重。

这是阳谋,但也是双赢。

06 | 对开发者们意味着什么

说完腾讯的算盘,再说说对我们的影响。

对于应用开发者:

1. 本地部署终于有了不错的选择

数据敏感的场景:政务、医疗、金融…

以前只能羡慕 Nano Banana。

现在有了一个效果真·能打、可以私有化部署的选项。

2. 成本结构变了

以前用 API,按次付费,用得越多花得越多。

现在可以一次性投入硬件,把模型部署在自己的服务器上。

对于高频使用场景(比如每天要生成上万张电商图的公司),长期成本会低很多

对于Start up:

之前做 AI 图像应用,核心能力。

你能做的只有在产品体验上卷:但体验再好,基模还是把控了你的关键成本。

现在不一样了…

开源模型你可以做深度定制,针对特定场景调优,甚至训练自己的专属产物?

这可能是真正可以建立技术壁垒的机会,也可能会倒闭闭源模型开源罢…

- 不过微调这个我还会再调研,现在不清楚是否真的能做好后处理。

终 | 腾讯这次是认真的

两年前内测混元的时候,说实话,有点一言难尽。

我一直觉得混元是「面向股东训练的大模型」。

这次他们在场景理解氛围控制物理材质这些维度上,混元图像 3.0 确实站上了领先的位置。

但短板也很明确:

  • 复杂组合容易丢元素

  • 镜头语言理解不足

  • 动态动作容易比例失调

但作为一个完全开源的模型,能做到这个程度,我觉得已经是里程碑级别的进展。

你试过混元图像 3.0了吗?

欢迎在评论区聊聊你的体验。

我是洛小山,我们下期见。

关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。

本文知识产权归洛小山所有。

未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。