解决AI绘画走神：TwiG范式实现视觉生成新变革

简简单单的说

2025-12-24 16:42 ·四川

最近AI画画技术真是火得不行，FLUX.1、Emu3这些模型画出来的美女帅哥、风景照，不仔细看真分不出是真是假。

但你让它们画个“猫在窗户里面”，结果猫脑袋探到窗外去了，说要“三个苹果”，画面里数来数去总有四个。

这些小错误看着好笑，其实暴露了大问题。

这些模型就像只会背模板的学生，遇到简单题还行，稍微复杂点的空间关系、物体怎么互动，立马露怯。

用户要的是“桌子上的书靠着台灯”，它给你来个“台灯压着书”，这种逻辑混乱的情况，在专业场景里根本没法用。

说到这里，可能有人会问，以前的研究者难道没想过解决这些问题吗？还真不是，他们试过两种办法，但效果都不太理想。

一种是“谋定而后动”，生成前先规划好每一笔，结果太死板，画到一半想调整都不行。

另一种是“亡羊补牢”，画完了再回头改，改来改去耗时不说，画面还容易糊。

这两种思路走不通，就需要新方法了。

这个想法其实借鉴了大语言模型的“思维链”，但反着来用了。

举个例子，画“戴红帽子的猫坐在沙发上”，传统模型可能一笔画到底，画完才发现帽子颜色不对。

这种即时修正的本事，可比画完重画省事儿多了。

那AI怎么知道啥时候该停呢？研究团队给它定了个“思维时间表”。

一幅画从上到下分成背景、主体、细节三部分，每部分画完就强制“思考”。

比如画人物，先画上面的背景，停，再画中间的人物主体，停，最后画下面的地面细节，停。

这种分段思考的方式，跟咱们画画时“先整体后局部”的习惯还挺像。

每次“思考”的时候，AI得说清楚两件事，现在画到哪了，下一步要干啥。

比如画苹果，它会记录“已画两个红苹果在盘子左侧”，然后计划“下一步画第三个绿苹果在盘子右侧”。

这种“微型路书”比一开始给的笼统指令管用多了，目标明确，不容易跑偏。

最聪明的是它改画的方式。

传统模型要么不改，要改就整个重画，费时费力。

TwiG只改出错的局部，比如苹果数量多了，就擦掉多出来的那个，其他部分不动。

这种“最小改动原则”，既保证了画面连贯，又节省了时间。

搞出这个框架后，研究团队还做了不少实验。

一开始没训练的时候，TwiG直接套在现有模型上就能用，在复杂场景测试里表现比原来好不少。

再后来用强化学习让它自己跟自己较劲，优化什么时候停、怎么改，现在在空间关系、物体数量这些难题上，已经能跟FLUX.1、Emu3这些大牌模型掰掰手腕了。

我觉得TwiG最厉害的不是画得更像，而是让AI画画有了“可解释性”。

以前AI画错了，你不知道它为啥错，改都没法改。

这种透明化的创作过程，对专业领域太重要了。

视频生成不是总出“穿帮镜头”吗？可以让AI每帧都思考下“上一帧人物在左边，这一帧不能突然跑到右边”。

3D建模总出结构错误？让AI边建边想“这里应该是直角，不能歪”。

这么看来，TwiG可能不只是优化了一个模型，而是给整个视觉生成领域提供了一种新的“创作逻辑”。

当然了，现在TwiG还不算完美。

但比起传统模型“闭着眼睛画”，这种“睁着眼画”的进步已经很明显了。

说不定再过两年，我们让AI画个“客厅里三只猫分别趴在沙发、茶几、地毯上”，它能清清楚楚给画出来，再也不会数错数、摆错位置了。

说到底，AI画画的终极目标不就是“想画啥就画啥，画啥像啥”吗？TwiG范式用“边画边想”的笨办法，反而可能走了条最靠谱的捷径。

毕竟，不管是人还是机器，做事多想想、多看看，总没错。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴