梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

文本一长就糊、指令一杂就撂挑子、遇到中文更是一整个变形freestyle……

「AI生图」的这点苦,到底有谁懂啊!!!

打开网易新闻 查看精彩图片

停,不用拧巴了,因为现在的AI,已经能稳稳吃下1K token的超长文字指令了:

打开网易新闻 查看精彩图片

复杂指令也不在怕的,最近OpenClaw贼火,我索性让AI直接帮roll出一个赛博信息图海报(你就说牛不牛吧):

打开网易新闻 查看精彩图片

中文渲染表现也不孬,《兰亭集序》这种公认的高难度文本,这AI居然能做到文字1:1还原,排版、笔锋都在线:

打开网易新闻 查看精彩图片

你以为到这儿就结束了,NONONO!因为它还能——多图编辑

随手丢给了它一张照片,人家直接给我甩出一组影棚级的9宫格写真!!(诶,突然感觉怒省一笔钱…

打开网易新闻 查看精彩图片

刚才帮我干活的这位,正是阿里刚刚发布的新一代图像生成及编辑模型——Qwen-Image-2.0

1K token长文本、复杂指令、中文渲染、图片编辑、2K分辨率一次性梭哈,连国际评测里的表现都已经冲到了仅次于Nano Banana Pro的位置。

不废话,这个中文版Nano Banana到底能不能打,咱实测见真章!!!

Qwen-Image-2.0 一手实测

复杂指令理解准,1K token文本玩得转

在AI生图界,最让人崩溃的倒不是写Prompt词,而是写了太多,AI根本不吃消,好的提示词真无!处!施!展!

不知道千问团队受了啥启发,这次在Qwen-Image-2.0中把提示词的输入字符硬生生搞到了「1K token」,而且对复杂指令的生成准确率也上了一个level。

换句话说,现在咱喂进去一大段「七八九百字」的超长地狱级提示词,对AI来说也是《手拿把掐》了。

打开网易新闻 查看精彩图片

但老话讲得好,光说不练假把式。

你说1K token就1K token?你说这AI能理解复杂指令就能理解?咱还得实测说的算!

先来道开胃菜,最近水墨风多宫格漫画在网上贼火,我直接反手就是输入一个长达700字,且包含复杂指令的提示词:

打开网易新闻 查看精彩图片

这个提示指令的难度在于,既需要AI理解五宫格结构、时间推进、空间切换、人物关系与统一画风,还需要把700字的长文本消化理解到位,这对长上下文保持一致性要求很高!!!

结果还没一分钟,Qwen-Image-2.0就给我搓出来了完成度明显高于我预期的唐僧师徒西天取经的「五宫格漫画」

打开网易新闻 查看精彩图片

仔细看会发现,夜行、火焰山、打斗这些场景区分都很明显,而且人物形象稳定,唐僧、孙悟空、猪八戒、沙僧都保持了较好的角色一致性。

连唐僧脸上的emo情绪都还原得很到位,该有的要素一个不差???

(不是,家人们,我有点惊了…)

emm…一张图说明不了啥!

这回咱再试一个Nano Banana里很火的「美食爆炸图」玩法,看看AI能不能接住招!

这次我输入了一段长达600多字的提示词,逐层描述汉堡的十种食材及其上下位置,对AI的结构理解与还原能力提出了很高要求:

打开网易新闻 查看精彩图片

万万没想到,一个颜值和完成度都拉满的「商业级」2k分辨率的汉堡分解信息图,就这么被AI搓出来了:

打开网易新闻 查看精彩图片

质感自然没得说,牛肉饼的焦化纹理、芝士拉丝、酱汁流动都很真实,文字也没有出现变形问题,每一层食材之间的距离也把控得很完美,强迫症患者狠狠爱了!!!

漫画和美食玩够了,咱再来试试城市特效玩法。

这回咱让AI在「画轴+立体城市+微缩建模+2k分辨率」多重要求同时成立的前提下,生成一幅上海市的3D景观:

打开网易新闻 查看精彩图片

说一句不夸张的,这张已经有点巨作内味了,完成度甚至比不少我在网上看到的爆款案例还要高……

打开网易新闻 查看精彩图片

从结构上看,画轴与上海城市的结合非常自然,卷轴的展开方向刚好承载了城市纵深。

此外,高楼、道路、水面、人物之间没有明显失衡,夜景灯光、车流光带、水面反射也都处理得很细,这Qwen-Image-2.0属实是把复杂指令和超长提示词妥妥拿捏了…

最后咱再来试试微观景观玩法,让AI搓一个2k微距摄影视角下的「大米王国」

打开网易新闻 查看精彩图片

在提示词的设计中,既要求AI将大米放大到地形级的尺度,又要保证微缩人物的比例、动作和受力逻辑真实,还得在同一画面中呈现搬运、装袋、协作的劳动场景,一旦有一项没对齐,画面就会立刻出戏!!!

没失望啊没失望,一个误入米粒世界、微缩人们围着巨型大米忙得热火朝天的奇妙场景,就这么水灵灵被搓出来了:

打开网易新闻 查看精彩图片

u1s1,整体完成度还是很高的,微缩比例关系准确,大米的尺度夸张但逻辑自洽,而且米粒的半透明质感、裂纹细节和浅景深处理让画面非常接近真实微距摄影了。

看来,Qwen-Image-2.0的1K token的超长文本输入和复杂指令理解力,还是有点说法的…

打开网易新闻 查看精彩图片

多图编辑手拿把掐

有朋友看到这儿该问了,光能文字生图有啥用啊,编辑能力才是最实用的。(大声)

好巧不巧,除了基础的文生图外,这次Qwen-Image-2.0的另一大超实用的能力,那就是——图片编辑

具体讲呢,我们可以通过上传一张或多张图片,通过提示词指令让AI进行二创、修改等编辑操作~

咱先来玩一个NanoBanana超火的OOTD拼图玩法,让图1中的女孩穿着图3的裙子,站在图2的车身前:

打开网易新闻 查看精彩图片

别说嗷,真一点违和感没有,衣服和女孩的融合得也非常好,不仅如此AI还把汽车的倒影给补足还原了,666…

打开网易新闻 查看精彩图片

咱再来试一个九宫格自拍照编辑玩法,只喂一张照片,再给一句九宫格需求指令,我就得到了一套影棚级写真!

打开网易新闻 查看精彩图片

不光如此,人家连文案都给你一块包了,我让AI给第一张水墨画写了首诗,小词一放上去,古风味儿立马就出来了:

打开网易新闻 查看精彩图片

能改图、能加字、能拼图,好好好,这下真·万物皆可编辑了。

感觉下个月我P图软件的会员真不用续费了……

中文汉字渲染极夯

其实从Qwen Image模型刚出的时候,我就对它中文渲染的强大能力的《略有耳闻》。

只是没想到,到了2.0,这本事又进化了…..

因为我发现,哪怕一张图都不喂,只简单说了一句「生成一个一文看懂的科普信息图表,解释熬夜的危害」,Qwen-Image-2.0给我的,已经是一张数字、汉字、英文全都安排得明明白白的科普海报了:

打开网易新闻 查看精彩图片

此外,它还能将文字和画作进行完整融合,看下面这个雪雕版的冰雪大世界,远看是字,近看是景,文字和周围的积雪融合得恰到好处!

打开网易新闻 查看精彩图片

即便黑板报中充满数字、符号和中文,文字依然能够做到1:1还原,更难得的是整体排版依旧规整,每个字的笔锋和间距看起来都很舒服:

打开网易新闻 查看精彩图片

汉字完整度和一致性都很高,几乎没有乱码或假字,数字、符号和公式渲染准确,已经达到可直接阅读的水平了。

诶?感觉非常适合拿来处理咱日常的一些海报文案、信息图表内容,这可比自己往图上一个个P字儿快多了…

打开网易新闻 查看精彩图片

实测之外,国际表现同样能打

实测中能打,国际表现也不孬。

在AI Arena模型评测中, Qwen-Image-2.0在文生图、图生图两个基准测试里也都跑出了相当靠前的成绩,仅次于谷歌Nano Banana Pro和GPT Image 1.5:

打开网易新闻 查看精彩图片

其实回头看Qwen-Image的演进路径,这个结果算不上意外。

早些时候,千问一直在两条方向上同时推进:一条主攻生图能力,一条持续打磨编辑能力

去年8月发布的Qwen-Image更偏向文字渲染的准确性,12月的Qwen-Image-2512则把重心放在细节质感和真实度上,与此同时,从单图编辑到多图编辑,再到一致性能力,也一步步补齐。

到了这次的Qwen-Image-2.0,相当于把这两条路线收拢到同一个模型里,生图和编辑同时在线,整体表现也就更稳了。

打开网易新闻 查看精彩图片

以中文文字渲染为例,过去这一方向长期受限于VAE压缩带来的损失:

小字号、密集排版对压缩极其敏感,信息密度越高,重构难度越大,生成结果也越容易糊。

围绕这一痛点,Qwen-Image-2.0在VAE与生成模型两端同步升级,小字与高密度文字场景下的可读性明显提升,PPT、信息图这类场景终于能稳定输出可直接使用的图像。

参数规模上,Qwen-Image-2.0也做了进一步收敛。

在能力提升的同时,模型体量更轻部署门槛更低生图速度更快,尤其适合高频prompt调试、实时展示和交互式创作等使用场景~

打开网易新闻 查看精彩图片

站在真实使用者的角度,这次实测下来最大的感受只有三个字——「超预期」。

对我而言,平时看一个生图模型好不好用,从来不太纠结参数本身,更在意它能不能在不反复抽卡的情况下,直接给出让我满意的结果。

这背后包括几个很实际的点:

提示词信息能不能完整呈现、生成速度快不快、画面好不好看,以及编辑能力够不够强大顺手。

而从这次体验来看,Qwen-Image-2.0几乎把这些日常生图时最容易翻车的地方,一次性都补齐了:

1K token的指令支持,让我可以尽可能把提示词写完整;2K分辨率输出,保证了画面的质感;而生图与编辑二合一的能力,让很多修改都能直接在生成结果上完成,省去了咱来回切换其他修图软件的麻烦。

好用、好看、真实、好玩,对我来说这就够了。

目前阿里云百炼上已开通API邀测。

开发者也可通过Qwen Chat(chat.qwen.ai)免费体验新模型,感兴趣的友友不妨直接自己上手搓一把!!!

打开网易新闻 查看精彩图片