来自汉阳大学、高丽大学和韩国产业技术研究院的研究人员,在6月12日上线的一篇技术论文中,提出了一种让视觉语言模型在光刻缺陷检测里“先做后改”的新方法。这个框架不打算用一次推理就给出完美答案,而是刻意收集模型在第一轮犯错的地方,专门训练一个“错误修正器”去做二次校验。

半导体光刻工序里,桥接、毛刺、夹断、污染这类微小图案缺陷,靠人工复检效率很低。研究团队把检测任务拆成了两个阶段。第一阶段,用Qwen3-VL作为底座模型,通过LoRA微调出一个视觉语言适配器。这个适配器面对光刻图像,可以同时输出缺陷数量、缺陷类别和归一化后的边界框坐标。但从论文描述来看,直接微调后模型在测试时还是会冒出误报、漏报或者把缺陷类型搞错的情况。

真正有趣的设计在第二阶段。他们专门收集了第一阶段适配器给出的错误预测,并把这些错误案例和对应的正确标注打包,用来训练一个细化模块。这个模块的输入就是初始推理结果,目标则是学习如何把预测修回正确方向。相当于让模型盯着自己栽过的坑,有意识地学习“翻车后怎么补救”,而不是简单加大数据量或调参。

论文指出,这套从失败案例中提炼修正能力的做法,把缺陷推理的效果拔到了单阶段微调够不到的水平。因为它不是盲目重跑检测流程,而是把预测错误当成可学习的信号,让模型在输出粗糙结果后还能进行一轮带有纠错意识的重新审视。对于工业场景下要求“宁可多检也不漏检”的光刻缺陷筛查来说,这种以错为师的思路,或许比一味追求一次检测的准确率来得更务实。