★ 设为星标 | 只讲人话,带你玩转AIGC。
说到文生图,大家心里可能都有个“白月光”,那就是谷歌的 Nano Banana Pro(下文简称 NBP)。
有一说一,NBP 确实是现阶段实打实的王者,尤其是叠加了 Gemini 大模型后,那魔法简直了。
最让我佩服的是,它基本解决了 AI 绘图界的一大顽疾——文字生成,特别是汉字。
但这两天,我突然发现一款国产工具冲上了热榜。
我一看,好家伙,它居然在“写汉字”这个领域,把 NBP 给超了?
图:GLM-Image在文字渲染的权威榜单中达到开源 SOTA水平
不仅如此,它还是个开源的。
它就是刚刚上市的 AI 第一股智谱出品的 GLM Image。
废话不多说,咱们不看参数,直接上“地狱级”实测。
它到底能不能打?
01 终于能听懂“人话”了,尤其是中文
既然,在写汉字这个事情上屠榜,那我们就先来试试它。
提示词:中国传统水墨画风格。画面是一座雄伟的古楼(鹳雀楼),背景是夕阳依山而落,黄河奔腾入海的壮观景象。在画面的留白处,用毛笔行书字体写下整首唐诗:“白日依山尽,黄河入海流。欲穷千里目,更上一层楼。”画风古朴典雅,宣纸纹理。
看到这张图我松了一口气,字写得相当准确,没有出现那种常见的“鬼画符”的情况。
虽然这个例子对现在的模型来说不算太难,但能把整首诗完整写对,起码及格线是稳了。
好,既然简单的过了,咱们上强度。
提示词:一张极具史诗感和科技感的商业电影海报。画面采用极具视觉冲击力的人物面部超大特写,主体是一位中年科技商业领袖男主角,面容沧桑坚毅,目光深邃地直视镜头。整个画面(包括人物面部皮肤、头发和背景)都叠加着密集的、发光的金色数据流代码、抽象电路板线条和数字噪点纹理,营造出一种被数字化信息包裹的力量感。整体色调为辉煌、厚重的暖金色调,光影对比强烈。海报下方三分之一处,巨大的粗体金属质感中文标题“破局者”横跨画面,带有厚重的立体光效。标题上方是较小的副标题“决胜全球芯片战争始末”。最底部是小字上映信息:“2025年春节档震撼上映 | IMAX 3D”。文字排版层级分明,与人物肖像在空间上形成紧密的叠加关系。
坦率说,这张海报的文字处理真的惊艳到我了。
“破局者”三个大字非常有张力,其他小字也都能清晰识别。
看起来,在这个特定领域,GLM Image 真的赶得上 NBP 这种商业闭源神器了。
不过,我感觉它在处理很多文字都时候,不是很稳定,有时候需要多抽几次卡才能出完美效果。
看下跟 NBP 的对比。
图:GLM Image 对比 NBP 的多文字处理
但考虑到它是免费开源的,这点“小脾气”我觉得完全可以接受。
测到这里,我感觉它还是有点东西。这可能是目前开源模型里,对中文处理最强的。
以前这种图,Nano Banana 根本没法处理(Pro 才可以),Midjourney 更是完全不支持中文。
连这些国外商业巨头都头疼的问题,让一个国产开源模型解决了,这不得不佩服。
02 审美在线:从宋词意境到王家卫美学
光能写字还不够,图画得丑也不行。
很多国产模型最大的问题是“土”,或者有一股浓浓的塑料“AI 味”,甚至有些默认生成的是外国人。
GLM 的审美在线吗?画质和光影呢?
我们细看之前那张图,非常有电影感,也符合那首宋词的意境。
提示词:一张极具电影感的纪实摄影作品。场景是雨后的清晨,一座古朴典雅的中式庭院。一位身着宋代服饰的女子站在木制窗棂后,轻轻卷起珠帘向外张望。窗外的庭院里,湿润的地面上散落着被打落的红色海棠花瓣(红瘦),而枝头经过雨水滋润的绿叶显得格外翠绿茂盛,挂着水珠(绿肥)。空气中充满湿润感,柔和的自然光。
人的眼睛对人像最敏感,咱们再来个高难度的“王家卫风格”。
提示词:一位冷艳的亚洲时尚女性,留着利落的湿发造型(Wet Look),身穿深祖母绿的亮片晚礼服,佩戴夸张的银色流苏耳环,材质上形成反光亮片与金属冷感的碰撞。她侧卧在平静的深蓝色水面上,背景是大面积高饱和度的克莱因蓝,营造出深邃静谧的包裹感。光影采用棱镜折射效果(Prism Effect),在人物面部投下彩虹般的破碎光斑,并带有微弱的慢门拖影(Motion Blur),赋予画面一种流动的迷幻感。构图采用上帝视角(Top-down shot),王家卫电影美学,高噪点胶片质感,艺术摄影风格。
这张图的完成度非常高。
不仅逼真,关键是水面的倒影、棱镜的折射光斑,处理得非常有质感。
为了防止它是“运气好”,我又测了个极端的——当复杂的毛发遇上暴风雪。
这通常是 AI 的“死穴”,很容易糊成一团。
提示词:一只雪豹的正面特写,漫天风雪,眼神犀利直视镜头,毛发上挂着冰渣和雪花,背景是模糊的雪山,国家地理风格,超高清
大家放大看细节。
风雪和毛发的交互很真实,雪花是“陷”在毛发里的,而不是浮在表面,眼神的那种野性也抓住了。
不得不说,这张图堪称完美。
小遗憾: 目前还不支持原生 4K 输出(盲猜是算力成本问题),放大看极微小的细节还是会有一点点涂抹感,但发朋友圈或做配图绰绰有余。
图:GLM Image 支持多种分辨率
03 搞钱神器:海报和封面,它真能干活
测到这,我觉得它已经不仅仅是个玩具了。
解锁了“文字”+“画质”这两个技能包,意味着什么?意味着它能帮我们干活了!
我是做内容的,以前做小红书封面,要么去素材网找图改,要么买 Canva 会员。
但我发现,GLM Image 处理这种图文结合的封面,似乎非常在行。
提示词:一张极具吸引力的小红书/YouTube 视频封面图,波普艺术拼贴风格。画面主体是一位年轻可爱的亚洲职场女性,留着短发,戴着黑框眼镜,身穿白衬衫和黄色背带裤。她双手托腮,对着镜头做出夸张惊讶的表情(O型嘴),人物周围有一圈明显的白色描边(贴纸效果),将她与背景的模糊办公室环境隔离开来。视觉设计包含上下边缘的黄色撕纸纹理效果。画面顶部有巨大的、黑色的粗体中文字体,印在黄色的矩形色块背景上,第一行写‘职场菜鸟’,第二行写‘生存法则’。人物右侧悬浮着手写体的中文标签‘干货满满’和‘建议收藏’,以及一个波普风格的英文单词‘WOW’。画面点缀着卡通灯泡图标、卡通眼睛贴纸和闪烁的星星符号。整体色调以明亮的黄色和黑白色为主,高饱和度,视觉冲击力强。”
图:GLM Image 生成的图片
是不是有点意思?
甚至 NBP 很拿手的“信息图表”,GLM 也能模仿个七七八八:
图:生成一张咖啡制作的信息图
提示词:创建一个展示如何制作面包的信息图表
这里我要客观说一句:如果是特别复杂、步骤特别多的信息图,NBP 依然更胜一筹,毕竟人家底层模型的参数量摆在那。
但在 GLM 里, 如果把提示词写得很详细具体,其实也能得到那样的图。
图:通过详细的提示词生成的信息图
极简风的产品海报,GLM Image 也是信手拈来:
提示词:一张极具奢华感的高端护肤品广告海报。画面中央是一瓶半透明的琥珀色精华液瓶身,瓶身表面有精致的金色烫金文字。瓶子置于平静的水面上,周围有金色的涟漪和飞溅的水珠,光影呈现出剔透的琉璃质感。 背景是深邃的渐变黑金色。画面上方留白处,使用优雅纤细的中文衬线字体(宋体风格)排版:‘凝时・新生’。下方是一行较小的英文:‘TIMELESS BEAUTY’。整体风格追求极致的纯净与奢华,微距摄影视角。
还有这种速度感的汽车海报:
提示词:一张充满速度感的电动超跑商业海报。一辆银灰色的流线型概念跑车正在深邃的未来隧道中极速飞驰。背景的灯光因为高速移动拉成了长长的霓虹光流(Motion blur),而车身主体清晰锐利,车漆反射着周围流动的光影,金属质感极强。 画面采用倾斜构图,极具视觉冲击力。左上角排版巨大的、粗体倾斜的无衬线中文字体:‘极速・由此定义’。右下角是汽车品牌Logo和一行小字‘未来已来’。冷色调,赛博朋克与工业设计的完美结合。
作为一款文生图的模型,GLM Image 目前还不支持修图,所以相对来讲比较简单,不知道后期会不会有这些功能,包括参考图等。
网上很多人把 GLM Image 称为 Nano Banana 的“国产平替”或“开源平替”。
但我扒了一下它的底,发现事情没那么简单。
它底层用的是一种很新的“自回归 + 扩散”架构 。
简单说,就是用大模型的脑子去“听懂话”,再用绘画模型的笔去“抠细节” 。这也是为什么它能把复杂的汉字写对的核心原因 。
更硬核的是,它是智谱联合华为昇腾和昇思 MindSpore 硬磕出来的,从里到外都是纯国产算力 。
当然,最吸引我的还是开源。
如果你在意数据隐私,或者公司想省成本,完全可以把它下载下来本地部署。
不用联网也能跑,相当于拥有了一个私有的绘图工作台,这点对企业太香了。
别光听我说,建议直接上手试,小白用户直接去 bigmodel.cn 免费体验:
图:GLM Image 的图像生成界面
技术大神去 GitHub 搜 GLM-Image 就能扒代码:
GitHub:https://github.com/zai-org/GLM-Image
Hugging Face:https://huggingface.co/zai-org/GLM-Image
魔搭社区:https://modelscope.cn/models/ZhipuAI/GLM-Image
试完觉得好用的,记得回来给国产 AI 点个赞!
热门跟贴