GPT-4o推出的图像生成器让吉卜力风吹遍整个互联网,不少用户纷纷尝试用AI重绘个人头像或网络热图,将其变为宫崎骏标志性的动画风格。据统计,爆火的趣味玩法让ChatGPT的全球下载量和周活跃数分别增长了11%和5%,应用内购买收入则增长了6%。不过,这也引起了部分艺术从业者的反感,让OpenAI再度陷入版权争议。

眼下,各家大模型对文生图能力的角逐已经进入白热化阶段。那么,国产大模型的图像生成水平发展得如何?

正好近日豆包AI更新了绘图能力,宣布模型的语义理解和影视质感均有所提升,对包含复杂提示词的指令也能准确遵循,并且绘画风格更加多元,我们来测试一下升级后的版本效果。

01

用AI生成梗图

首先从图例来看,更新后的精选参考图的确在画面质感上有大幅提升。

为测试其对图像风格和复杂指令的理解,笔者要求它生成带文字的梗图。例如“请生成一张搞笑的表情包,章鱼哥端着一沓文件神情萎靡,眼睛半睁十分疲倦,配文‘早上坏’”,图片风格勾选“卡通”。

接着输入“请生成一张表情包,Hello Kitty戴着墨镜坐在办公桌前用水杯喝茶,盯着面前的电脑神情镇定,配文‘别催了,在赶了’”,图片风格勾选“人像摄影”。

再输入“请生成一张搞笑的表情包,一只可爱的柯基犬靠在沙发上笑着玩手机,配文‘这个好笑,发给主人看看’”。

根据结果来看,豆包对指令的主要内容理解到位,如章鱼哥、Hello Kitty和柯基的外观及动态都很生动,对神情的展示也很精准,指令中没有提到的部分,如章鱼哥和柯基的衣着,也处理得比较自然。

但仍然存在一些瑕疵,章鱼哥表情包配文明明是“早上坏”,没有提示背景时自动生成为夜景,经过继续编辑顺利调整为白天的办公室,但去掉重复配文的要求经过反复提示依然没有奏效。Hello Kitty的表情包配文也出现了同样的重复问题。

如果换成贺卡呢?笔者接着输入指令:“请生成一张教师节的贺卡,要求以淡紫色为主色调,背景精致带蝴蝶结,上面写着‘祝张老师教师节快乐’的字样”。生成的四张图片都满足了色调要求,从画面协调度和美感来看表现可圈可点,但其中第一张将“蝴蝶结”生成为一只蝴蝶,第三张的祝福语出现了文字重复。

随后,笔者针对第四张图继续编辑指令,要求在上面加一个戴眼镜的女教师头像。

02

如何展示诗文意境

为了测试豆包对复杂语义的理解程度,笔者又尝试让其根据诗句的意境生成图片。例如,输入“请生成一张图片:幽暗的房间里,床帏散开,窗外的月光洒在地板上。展现‘床前明月光,疑是地上霜’的意境”,图片风格勾选为“中国风”。

让豆包展示“床前明月光,疑是地上霜”的意境

总体来看,无论是生成带文字的图片,还是根据诗句生成图片,豆包对基本语义的理解和对图片风格的把握是比较精准的,尽管存在一些不合理的细节,也可以通过继续编辑进行微调,需要改进的地方在于对配文和字体的处理。

欢迎通过邮局渠道订阅2025年《电脑报》

邮发代号:77-19

单价:8元,年价:400元

编辑|张毅

主编|黎坤

总编辑|吴新

爆料联系:cpcfan1874(微信)

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者