最近AI画画技术真是火得不行,FLUX.1、Emu3这些模型画出来的美女帅哥、风景照,不仔细看真分不出是真是假。

但你让它们画个“猫在窗户里面”,结果猫脑袋探到窗外去了,说要“三个苹果”,画面里数来数去总有四个。

这些小错误看着好笑,其实暴露了大问题。

打开网易新闻 查看精彩图片

这些模型就像只会背模板的学生,遇到简单题还行,稍微复杂点的空间关系、物体怎么互动,立马露怯。

用户要的是“桌子上的书靠着台灯”,它给你来个“台灯压着书”,这种逻辑混乱的情况,在专业场景里根本没法用。

说到这里,可能有人会问,以前的研究者难道没想过解决这些问题吗?还真不是,他们试过两种办法,但效果都不太理想。

一种是“谋定而后动”,生成前先规划好每一笔,结果太死板,画到一半想调整都不行。

打开网易新闻 查看精彩图片

另一种是“亡羊补牢”,画完了再回头改,改来改去耗时不说,画面还容易糊。

这两种思路走不通,就需要新方法了。

这个想法其实借鉴了大语言模型的“思维链”,但反着来用了。

打开网易新闻 查看精彩图片

举个例子,画“戴红帽子的猫坐在沙发上”,传统模型可能一笔画到底,画完才发现帽子颜色不对。

这种即时修正的本事,可比画完重画省事儿多了。

打开网易新闻 查看精彩图片

那AI怎么知道啥时候该停呢?研究团队给它定了个“思维时间表”。

一幅画从上到下分成背景、主体、细节三部分,每部分画完就强制“思考”。

比如画人物,先画上面的背景,停,再画中间的人物主体,停,最后画下面的地面细节,停。

这种分段思考的方式,跟咱们画画时“先整体后局部”的习惯还挺像。

每次“思考”的时候,AI得说清楚两件事,现在画到哪了,下一步要干啥。

打开网易新闻 查看精彩图片

比如画苹果,它会记录“已画两个红苹果在盘子左侧”,然后计划“下一步画第三个绿苹果在盘子右侧”。

这种“微型路书”比一开始给的笼统指令管用多了,目标明确,不容易跑偏。

最聪明的是它改画的方式。

传统模型要么不改,要改就整个重画,费时费力。

TwiG只改出错的局部,比如苹果数量多了,就擦掉多出来的那个,其他部分不动。

打开网易新闻 查看精彩图片

这种“最小改动原则”,既保证了画面连贯,又节省了时间。

搞出这个框架后,研究团队还做了不少实验。

一开始没训练的时候,TwiG直接套在现有模型上就能用,在复杂场景测试里表现比原来好不少。

再后来用强化学习让它自己跟自己较劲,优化什么时候停、怎么改,现在在空间关系、物体数量这些难题上,已经能跟FLUX.1、Emu3这些大牌模型掰掰手腕了。

打开网易新闻 查看精彩图片

我觉得TwiG最厉害的不是画得更像,而是让AI画画有了“可解释性”。

以前AI画错了,你不知道它为啥错,改都没法改。

这种透明化的创作过程,对专业领域太重要了。

打开网易新闻 查看精彩图片

视频生成不是总出“穿帮镜头”吗?可以让AI每帧都思考下“上一帧人物在左边,这一帧不能突然跑到右边”。

3D建模总出结构错误?让AI边建边想“这里应该是直角,不能歪”。

这么看来,TwiG可能不只是优化了一个模型,而是给整个视觉生成领域提供了一种新的“创作逻辑”。

当然了,现在TwiG还不算完美。

打开网易新闻 查看精彩图片

但比起传统模型“闭着眼睛画”,这种“睁着眼画”的进步已经很明显了。

说不定再过两年,我们让AI画个“客厅里三只猫分别趴在沙发、茶几、地毯上”,它能清清楚楚给画出来,再也不会数错数、摆错位置了。

说到底,AI画画的终极目标不就是“想画啥就画啥,画啥像啥”吗?TwiG范式用“边画边想”的笨办法,反而可能走了条最靠谱的捷径。

毕竟,不管是人还是机器,做事多想想、多看看,总没错。

打开网易新闻 查看精彩图片