过去一个月,我把写论文时"在Illustrator里耗半天画流程图"的活儿交给了AI。Midjourney、GPT-Image-1、DALL-E、Stable Diffusion微调模型、通用文生图工具,最后是一款专门做科学插画的工具——只有最后这个能用在要投同行评审的论文里。这篇文章是前五个为什么失败的尸检报告。

失败模式一:标签幻觉

打开网易新闻 查看精彩图片

你让AI画一张"PCR循环步骤:变性、退火、延伸"的图,它可能在框里写成"Denaturition""Aneling""Estention"。或者词对了,但把"DNA"写成一团五个字母的 blob。这是因为图像生成模型把文字当像素处理,根本不知道那是文字。

打开网易新闻 查看精彩图片

人们试过的 workaround:

先出图,再用Photoshop改字。能用,但手动操作把速度优势全抹掉了。

用文本渲染更强的模型(Flux 1.1 Pro、Ideogram)。好点,但仍有约20%的错误率,而且你得导出之后才知道哪20%错了。

对期刊图来说,这个失败模式是隐形的——直到审稿人截图圈出一个标错的框,让你重做Figure 3。

失败模式二:布局无法迭代

这才是真正的杀手。假设模型给你一张四格图:A、B、C、D。审稿人说:"加第五格,放对照组条件。"

在像素层面,没有"加一格"这个操作。唯一的办法是重新写提示词。新图不会保留A-D格完全一致的布局、配色、字体和尺寸。每次修改都是从零开始。

真实成本:我最近一篇论文改了六轮。用像素级AI工具,就是从头重画六遍。用Illustrator,是六次快速编辑。用底层把图存成"框/箭头/标签"的结构化画布工具,是六次"加E格"的指令,零重画。

失败模式三:视觉词汇错误

打开网易新闻 查看精彩图片

通用图像AI的训练数据是 stock 照片、艺术图、表情包——不是科学出版物。它生成的"示意图"是科技博客那种卡通风格:3D光泽盒子、漫画箭头、渐变填充。期刊要的是2D、线宽可控、色彩克制、矢量输出。

你可以用提示词绕开一部分("扁平、极简、期刊风格"),但模型掌握的视觉原语还是流行艺术原语。它不知道方法学示意图里的细胞膜长什么样,也不知道生态流量的桑基图该是什么形态。

什么真正管用:结构化画布 + 科学感知的原语库

破解这三个问题的模式是:在自然语言提示之下,把图保持为结构化表示(框、箭头、标签、面板),只在导出时才渲染成像素。

这样:

文字就是文字,不会拼写幻觉。

"加E格"是对结构的真正操作。

原语库可以是科学形状的:受体卡通、细胞器。