最近AI画画技术真是火得不行,FLUX.1、Emu3这些模型画出来的美女帅哥、风景照,不仔细看真分不出是真是假。
但你让它们画个“猫在窗户里面”,结果猫脑袋探到窗外去了,说要“三个苹果”,画面里数来数去总有四个。
这些小错误看着好笑,其实暴露了大问题。
这些模型就像只会背模板的学生,遇到简单题还行,稍微复杂点的空间关系、物体怎么互动,立马露怯。
用户要的是“桌子上的书靠着台灯”,它给你来个“台灯压着书”,这种逻辑混乱的情况,在专业场景里根本没法用。
说到这里,可能有人会问,以前的研究者难道没想过解决这些问题吗?还真不是,他们试过两种办法,但效果都不太理想。
一种是“谋定而后动”,生成前先规划好每一笔,结果太死板,画到一半想调整都不行。
另一种是“亡羊补牢”,画完了再回头改,改来改去耗时不说,画面还容易糊。
这两种思路走不通,就需要新方法了。
这个想法其实借鉴了大语言模型的“思维链”,但反着来用了。
举个例子,画“戴红帽子的猫坐在沙发上”,传统模型可能一笔画到底,画完才发现帽子颜色不对。
这种即时修正的本事,可比画完重画省事儿多了。
那AI怎么知道啥时候该停呢?研究团队给它定了个“思维时间表”。
一幅画从上到下分成背景、主体、细节三部分,每部分画完就强制“思考”。
比如画人物,先画上面的背景,停,再画中间的人物主体,停,最后画下面的地面细节,停。
这种分段思考的方式,跟咱们画画时“先整体后局部”的习惯还挺像。
每次“思考”的时候,AI得说清楚两件事,现在画到哪了,下一步要干啥。
比如画苹果,它会记录“已画两个红苹果在盘子左侧”,然后计划“下一步画第三个绿苹果在盘子右侧”。
这种“微型路书”比一开始给的笼统指令管用多了,目标明确,不容易跑偏。
最聪明的是它改画的方式。
传统模型要么不改,要改就整个重画,费时费力。
TwiG只改出错的局部,比如苹果数量多了,就擦掉多出来的那个,其他部分不动。
这种“最小改动原则”,既保证了画面连贯,又节省了时间。
搞出这个框架后,研究团队还做了不少实验。
一开始没训练的时候,TwiG直接套在现有模型上就能用,在复杂场景测试里表现比原来好不少。
再后来用强化学习让它自己跟自己较劲,优化什么时候停、怎么改,现在在空间关系、物体数量这些难题上,已经能跟FLUX.1、Emu3这些大牌模型掰掰手腕了。
我觉得TwiG最厉害的不是画得更像,而是让AI画画有了“可解释性”。
以前AI画错了,你不知道它为啥错,改都没法改。
这种透明化的创作过程,对专业领域太重要了。
视频生成不是总出“穿帮镜头”吗?可以让AI每帧都思考下“上一帧人物在左边,这一帧不能突然跑到右边”。
3D建模总出结构错误?让AI边建边想“这里应该是直角,不能歪”。
这么看来,TwiG可能不只是优化了一个模型,而是给整个视觉生成领域提供了一种新的“创作逻辑”。
当然了,现在TwiG还不算完美。
但比起传统模型“闭着眼睛画”,这种“睁着眼画”的进步已经很明显了。
说不定再过两年,我们让AI画个“客厅里三只猫分别趴在沙发、茶几、地毯上”,它能清清楚楚给画出来,再也不会数错数、摆错位置了。
说到底,AI画画的终极目标不就是“想画啥就画啥,画啥像啥”吗?TwiG范式用“边画边想”的笨办法,反而可能走了条最靠谱的捷径。
毕竟,不管是人还是机器,做事多想想、多看看,总没错。
热门跟贴