打开网易新闻 查看精彩图片

计算机辅助设计(CAD)在工程和制造领域一直扮演着至关重要的角色,但最大的瓶颈却是数据的匮乏。这项由莫斯科国立大学、巴黎多菲纳大学、因诺波利斯大学和FusionBrain实验室共同完成的突破性研究,发表于2026年2月的arXiv预印本服务器(论文编号:arXiv:2602.16317v1),彻底改变了这一现状。研究团队开发出一个名为CADEvolve的革命性系统,它就像给计算机装上了工程师的大脑,能够从简单的几何体开始,逐步"进化"出复杂的工业级CAD设计。

传统的CAD数据集就像一个只会做煎蛋的厨师食谱集——虽然有很多种煎蛋方法,但缺少制作复杂菜肴的步骤。现有的公开CAD数据主要局限于简单的"画图-拉伸"操作序列,就好比只会用直线和方块搭建房子,而缺乏旋转、扫掠、倒角等高级操作的组合运用。这导致AI模型在学习CAD设计时,就像只学会了基础运算的学生,无法处理复杂的数学问题。

研究团队的解决方案极其巧妙。他们设计了一个"进化型"数据生成流水线,从46个手工编写的基础几何体开始,让大语言模型(GPT-5-mini)充当"设计导师",不断提出改进建议。每个建议都必须通过严格的验证:代码能否正确执行、生成的几何体是否有效、视觉效果是否与设计描述相符。只有通过全部检验的设计才能"存活"下来,成为下一轮进化的"父母"。这个过程就像自然界中的物种进化,适者生存,劣者淘汰,最终产生了7945个复杂的参数化几何体生成器。

更令人惊叹的是,研究团队并没有止步于此。他们从这些生成器中采样出约80万个可执行程序,配上对应的几何形状,然后进行了一系列精巧的处理。首先是代码风格的多样化改写,避免AI学习时产生固化的代码模板。接着是"标准化"处理,就像给所有设计图纸统一了比例尺和坐标系,让AI更容易学习其中的规律。最终,他们构建了一个包含约130万个脚本的统一数据集CADEvolve-C,这是第一个覆盖完整CadQuery操作集的开源CAD序列数据集。

在这个数据集上训练的视觉-语言模型CADEvolve-M展现出了令人瞩目的性能。在三个权威的CAD重建基准测试中——DeepCAD、Fusion 360和MCB,该模型都达到了最先进的水平。更重要的是,与传统方法相比,CADEvolve能够处理旋转、扫掠、放样、面选择器和复杂孔洞模式等高级操作,这些正是工业设计中不可或缺的技术。

一、从简单积木到复杂机械:CADEvolve的进化奇迹

CADEvolve的工作原理就像一个永不疲倦的设计工作室。在这个工作室里,有一位经验丰富的AI"设计师"(GPT-5-mini),还有一套严格的质量检验流程。整个过程从46个精心设计的"种子"几何体开始,这些种子就像基础的乐高积木,包含了齿轮、楔形体、棱镜、环形段等基本形状,覆盖了挤压、旋转、放样、扫掠、壳体、倒角等核心操作。

每一轮进化过程都遵循严格的规律。系统首先从现有的设计库中随机选择几个"父母"设计,然后请AI设计师基于这些父母的特征,提出新的设计想法。这些想法不仅包括形状名称、抽象描述和详细说明,还要明确指出从哪些父母那里继承了什么特征。接下来,系统会根据这些描述,利用检索增强技术找到相似的代码模板,然后让AI编写出完整的CadQuery代码。

最关键的是三重验证机制。首先是执行检查,确保代码能够正常运行并生成唯一的实体。其次是几何有效性验证,检查生成的形状是否符合CAD的严格标准。最后是视觉-文本一致性检查,系统会从七个不同角度渲染新设计(一个等距视图加六个正交投影),然后让AI比较渲染结果是否与原始描述相符。如果任何一个环节出现问题,系统会要求AI进行有针对性的修复。

经过这样严格的筛选,只有真正优秀的设计才能进入下一轮进化。整个过程持续进行,直到达到预设的计算预算或者创新性饱和为止。研究团队发现,随着进化的深入,无效提案的比例会急剧上升到约85%,而新颖样本的接受率也会降至40-50%,这表明设计空间正在逐渐饱和。

这种进化方法的精妙之处在于,它不是简单的随机搜索,而是有目标、有约束的智能探索。每个新设计都必须比父母更复杂、更有趣,同时还要保持几何的有效性。这就像培育新品种的花卉,既要保持基本的生物特征,又要追求新的色彩和形状。

二、从生成器到可执行程序:精确控制每个参数

拥有了7945个参数化生成器后,研究团队面临了一个新挑战:如何从这些生成器中提取出丰富多样的具体设计实例?这就像拥有了一套万能模具,现在需要用它们制造出各种不同规格的产品。

团队采用了质量-多样性优化策略。对于每个生成器,他们设计了一个双重目标函数。质量方面,系统会检查生成的CAD形状是否有效——必须是唯一的水密实体,最长边要在60到200单位范围内,整个形状要位于特定的立方体空间中。多样性方面,系统会将每个新样本与已接受样本进行比较,如果新样本与现有样本过于相似,就会被拒绝。

为了解决这个非可微的优化问题,团队选择了著名的CMA-ES(协方差矩阵自适应进化策略)算法。这种算法就像一个聪明的探险家,能够根据之前的探索经验调整搜索策略,逐渐找到参数空间中那些既有效又新颖的区域。对每个生成器,系统会持续搜索,直到找到15个满足条件的参数组合,或者达到计算预算限制。

找到有效的参数组合后,系统会进行"程序展开"过程。这个过程就像把一个智能烹饪机器人的食谱转换成详细的手工操作步骤。系统会运行一次参数化生成器,记录下每一个几何操作,跳过那些不影响最终结果的分支和循环,只保留真正构造几何体的CadQuery操作。最终输出一个扁平化的、确定性的脚本,包含最小的导入语句和统一的输出变量名。

这个过程特别重要,因为它解决了参数化代码的一个根本问题:同一个生成器可能包含复杂的条件分支和循环结构,直接用于训练会让AI学习到错误的模式。通过展开过程,每个脚本都变成了一个清晰的操作序列,就像把"如果天气好就用烤箱,否则用微波炉"这样的条件指令,转换成具体的"用烤箱200度烘烤20分钟"这样的确定步骤。

经过这个阶段,团队获得了74918个具体的可执行脚本,每个都对应一个独特的几何形状,并且包含完整的构造历史。这些脚本构成了CADEvolve-P数据集的核心。

三、代码增强与自举:打破模板固化的创新突破

当研究团队用初始的74918个脚本训练AI模型时,他们遇到了一个意想不到的问题:模板固化。由于同一个生成器产生的脚本共享相同的标识符和操作序列,只有参数值不同,就像用同一个模具制作的产品,形状类似但尺寸不同。这导致训练出的小型Qwen2-VL-2B模型学会了几何形状与固定代码框架之间的虚假关联,生成的结果几乎无法使用。

为了解决这个问题,团队设计了代码级增强策略。他们要求GPT-5-mini为每个脚本生成多达10个语义等价的重写版本——使用不同的变量名、不同的操作顺序、不同的代码结构,但产生完全相同的几何体。这就像用不同的语言描述同一个故事,或者用不同的路线到达同一个目的地。

在这个过程中,系统还会自动清理无用的操作,比如删除没有贡献的草图、未使用的工作平面、无效果的倒角操作等。每个重写版本都必须通过验证,确保能够正确执行并生成预期的几何体。经过过度生成和筛选,最终保留了744780个有效的脚本变体。

然而,即使有了这些改进,模型的几何保真度仍然不够理想。研究团队采用了一个巧妙的自举策略:他们用第一轮训练得到的不完美模型去预测ABC和ShapeNet数据集中网格的对应CadQuery程序,然后将这些预测结果作为新的训练数据。这种做法看起来反直觉,但实际上非常有效——虽然预测的程序可能不完美,但它们提供了更大的覆盖范围和多样性。

具体来说,团队用第一轮模型对ABC数据集预测得到875632个脚本,对ShapeNet数据集预测得到119437个脚本。结合原有的重写脚本,总训练集达到了1739849个样本。虽然第二轮训练的性能提升有限,但这为后续的标准化处理奠定了基础。

四、标准化革命:统一格式带来的质量飞跃

面对训练数据过于复杂和多样化的问题,研究团队实施了一套全面的标准化流程,这可能是整个研究中最关键的创新之一。这个过程就像给所有不同风格的建筑图纸制定统一的绘图标准,让AI能够更容易地学习和理解设计规律。

标准化包含四个核心步骤。首先是统一化,系统会移除所有非几何相关的Python代码,只保留影响几何构造的CadQuery调用,然后重新整理成扁平的、类似宏的序列,使用稳定的临时变量名(wp1、wp2等)和最小的导入语句。

接下来是居中处理。系统会构建每个实体,计算其轴对齐边界框的中心,然后注入一个确定性的平移操作,确保最终对象的中心位于原点(0,0,0)。这就像把所有家具都搬到房间的正中央,方便统一管理。

第三步是尺度标准化。系统会应用均匀缩放,使边界框的最长边等于固定目标值(200单位),这样所有形状都会大致位于[-100,100]?的立方体内。这确保了不同来源的模型都有相似的尺寸范围,避免AI被尺寸差异干扰。

最后是二值化处理。系统会量化所有数值字面值——将微小的epsilon值归零,其余值四舍五入为整数。这个步骤移除了浮点噪声,将参数空间约束到一致的网格上,大大简化了AI的学习任务。

标准化过程偶尔会引入几何冲突,因此团队重新验证了所有转换后的脚本,最终保留了1002002个有效程序:69201个来自CADEvolve,813378个来自ABC预测,119312个来自ShapeNet预测。

为了进一步优化训练效果,团队还实施了基于长度的过滤和截断策略。他们将数据集分为两组:849558个脚本少于3000字符,152444个脚本超过3000字符。对于较长的脚本,系统会截断到3000字符并重新通过标准化流程,最终获得129961个有效脚本。去重后,对应111742个唯一脚本。因此,最终少于3000字符的脚本数量为961300个。

五、草图多样性增强:解决早期操作单一性问题

在标准化后的训练中,研究团队发现了另一个微妙但重要的问题:草图多样性不足。许多CADEvolve脚本的标准化第一原语都撞到了标准化边界(比如最大范围200的轴对齐盒子或直径/高度为200的圆柱体),这导致早期草图操作过于单一。

为了解决这个问题,团队采用了草图多样性增强策略。他们识别出那些第一原语达到标准化边界的CADEvolve脚本,然后用CADRecode数据集中的脚本替换基础原语。CADRecode以其丰富的草图变化而闻名,这种替换为数据集注入了更多的早期结构变化。

这个过程为训练集贡献了963096个额外脚本。结合之前的长度过滤步骤,团队为最终的脚本集生成了STL网格。由于渲染和几何验证失败,最终只为1382928个脚本成功生成了STL文件。

最后一步是旋转增强,这对提高模型的鲁棒性至关重要。在实践中,同一个CAD零件可以在任意旋转下存储或观察,而其构造逻辑和参数化保持不变。如果没有增强,模型可能会隐式依赖于数据集特定的标准姿态,这会降低对未见方向的泛化能力。

旋转增强过程使用基于脚本的旋转程序,通过旋转CadQuery工作平面构造调用的参数来改变后续操作使用的参考平面的方向和偏移。系统考虑24种旋转变体,分为三类:绕Z轴的0°、90°、180°或270°旋转;先绕Z轴旋转,然后绕Y轴旋转90°,再绕Z轴旋转;先绕Z轴旋转,然后绕Y轴旋转180°。

对每个数据集元素,系统会随机应用一种旋转并将结果样本添加到训练集中。最终,通过旋转增强获得了额外的1337553个脚本,使最终的监督微调训练集包含2720481个脚本。

六、CADEvolve-M模型:视觉到代码的完美转换

为了验证CADEvolve数据集的有效性,研究团队开发了CADEvolve-M,这是一个专门针对Image2CAD任务优化的视觉-语言模型。这个任务的设定很直观:给定一个形状的固定多视图渲染,模型需要生成一个能够编译成匹配实体的CadQuery程序。

与Text2CAD相比,Image2CAD不需要文本描述,这对于增强数据很有用,因为研究团队没有为这些脚本提供文本描述。与PC2CAD相比,它不需要训练点云编码器。团队将多视图图像网格直接输入到VLM的内置视觉编码器中,除了基础模型之外不引入额外的图像主干、适配器或预训练。

实验设置经过精心优化。对于CADEvolve-P,系统使用7个视图(6个正交+1个等距);对于CADEvolve-C的最终实验,使用8个标准视图:六个正交投影(±X、±Y、±Z)和两个等距视图。形状经过刚性对齐并位于[-100,100]?范围内。对每个正交视图,系统渲染该框的238×238图像,并通过强度编码沿视图轴的深度。为保持轴方向一致,-Z、+Y、+X图像会水平镜像。八个图像连接成2×4网格输入模型。

与cadrille的4-iso设置不同,6-正交+1-2等距布局为倒角和圆角提供了更清晰的线索。团队使用Qwen2-VL-2B作为视觉-语言主干,用多视图网格提示并解码CadQuery tokens。

训练过程分为两个阶段。监督微调阶段,团队进行两个epoch的监督微调,目标是在视图条件下的代码的token级交叉熵。强化学习微调阶段,团队采用与cadrille相同的在线RL训练和奖励,即GRPO目标与Dr. GRPO和CPPO变体(Dr. CPPO),以及结合IoU(缩放以强调准确性)和无效生成惩罚(非编译或非水密)的程序化奖励。

奖励函数设计简单有效:如果代码编译成功,r = 10 × IoU;否则r = -10。团队在两种配置上各训练20个epoch:RL1使用cadrille RL训练集(从DeepCAD和Fusion360训练分片选择的部分,不在SFT语料中);RL2在RL1基础上增加MCB训练分片,MCB按团队重新分片,测试集覆盖所有ISO类别且从未用于RL。

七、突破性实验结果:全面超越现有技术

CADEvolve-M在三个权威基准测试中的表现令人惊叹,全面超越了现有的最先进方法。在DeepCAD、Fusion360和MCB数据集上,该模型都取得了显著的性能提升,特别是在处理复杂几何操作方面展现出了前所未有的能力。

从数据集演进的角度来看,实验结果清晰地展现了每个改进步骤的价值。即使经过代码级增强,CADEvolve-P后增强版本(SFT)与最强基线相比仍有很大差距,尽管增强确实将指标推向了正确方向。这支持了研究团队的解释:语义保留重写确实减少了模板过拟合,但如果没有代码风格和形状大小的标准化是不够的。

从CADEvolve-C小型版本到中型版本的巨大跃升表明,添加预测派生监督(ABC/ShapeNet)显著改善了几何保真度。大型版本进一步改善了性能,为后续的强化学习奠定了坚实基础。

在强化学习阶段,CADEvolve-C大型版本(RL1)在所有数据集上的CD/IoU指标都超过了cadrille RL,代价是略高的无效率,这与更频繁使用复杂、易碰撞的操作一致。RL2通过在RL池中增加MCB训练形状来解决其领域转移问题(由于更高的STL容差导致的更柔和轮廓),在保持DeepCAD和Fusion360接近cadrille性能的同时,在MCB上取得了实质性改进。

定性比较结果更加令人印象深刻。在复杂的工业级零件重建任务中,CADEvolve-M能够准确重建通过旋转、扫掠、放样、面选择器和复杂孔洞模式构建的零件,而传统的基于草图-挤压-布尔运算的方法通常无法很好地近似这些结构。这种能力的差异在测试样例中表现得尤为明显:当目标包含复杂的曲面、精密的孔洞排列或需要多步骤操作序列时,cadrille等基线方法往往失败,而CADEvolve-M能够生成几乎完美匹配的重建结果。

性能指标的分析也很有启发性。CADEvolve-M虽然在无效率上略高,但这实际上反映了一个积极的特征:模型敢于尝试更复杂的操作组合。传统方法往往局限于安全的草图-挤压组合,因为它们不太可能产生几何冲突,但也限制了能够处理的形状复杂度。CADEvolve-M的稍高无效率实际上表明它正在探索更丰富的操作空间,这是实现工业级CAD重建能力的必要代价。

八、数据集特征分析:丰富度与复杂性的全面提升

CADEvolve数据集在操作覆盖度、序列长度和几何复杂性方面都展现出了显著的优势。通过详细的统计分析,研究团队证明了这个数据集确实填补了现有CAD训练语料的重要空白。

从操作统计来看,CADEvolve的分布大体上遵循真实CAD程序历史的模式,但有两个值得注意的变化:较少的旋转、倒角、壳体和镜像操作,以及更多的孔洞操作和大量的变换和放样操作。尽管存在这些差异,最常用的操作都有足够的数量来支持可靠的训练和评估。挤压操作出现在83.05%的脚本中,倒角出现在27.78%中,这确保了核心CAD操作得到了充分覆盖。

序列长度分布显示了CADEvolve的一个关键优势:程序长度的广泛分布和高度程序化模型的长尾。许多CADEvolve脚本超过25个操作,长尾中包含大量高度程序化的模型,这表明数据集的程序深度远超典型基准。这种特征对训练能够处理复杂、多步骤CAD设计流程的AI模型至关重要。

几何复杂性的分析更加令人印象深刻。面数统计显示,CADEvolve零件经常包含数千个多边形面,反映了精细的几何细节和比现有基准更高的形状复杂度。这种复杂性不是人为制造的,而是通过进化过程自然产生的,确保了训练数据的真实性和实用性。

进化过程的动态分析揭示了系统的行为特征。在搜索过程中,无效提案率稳步上升,在后期迭代中达到约85%。同时,新颖样本的接受率也下降到40-50%,表明在固定API或计算预算下的收益递减。这些趋势说明了一个关键权衡:虽然探索可以继续,但效率会大幅下降,进一步扩展过程需要更强的提案策略而不是简单地运行更长时间。

旋转增强的实施确保了模型对全局方向的鲁棒性。通过24种旋转变体的应用,数据集涵盖了实际应用中可能遇到的各种方向,避免了模型对特定标准姿态的过度依赖。这种增强策略显著提升了模型的泛化能力,使其能够处理任意方向的输入图像。

九、技术创新点与方法论突破

CADEvolve的成功不仅在于最终的性能表现,更在于其背后的一系列方法论创新。这些创新为AI辅助CAD设计开辟了全新的研究方向。

最重要的创新是将进化计算与大语言模型相结合的数据生成范式。传统的CAD数据生成要么依赖人工标注(成本高昂且规模有限),要么使用规则生成(灵活性不足且难以产生复杂结构)。CADEvolve通过让LLM充当"进化压力",在保持严格几何约束的同时实现了开放式的创意探索。这种方法的关键在于平衡了自由度与约束:LLM提供创意和多样性,而几何验证确保实用性和有效性。

代码标准化流水线的设计也具有重要的方法论意义。研究团队认识到,原始的参数化代码虽然功能完整,但其复杂的条件分支和循环结构会误导AI学习。通过追踪执行、展开分支、统一格式和量化参数,标准化过程将复杂的程序逻辑转换为清晰的操作序列。这种"从程序到序列"的转换为AI提供了更适合学习的数据表示。

自举式数据扩充策略展现了另一种创新思路。通过用不完美的模型生成更多训练数据,然后用扩充后的数据训练更好的模型,这种方法突破了标注数据稀缺的瓶颈。虽然生成的数据可能不完美,但它们提供了更大的覆盖范围和多样性,最终带来了整体性能的提升。

多阶段验证机制确保了生成数据的质量。执行检查、几何有效性验证和视觉-文本一致性检查构成了三重保险,每个阶段都有针对性的修复机制。这种分层验证避免了"垃圾进,垃圾出"的问题,确保了训练数据的高质量。

视觉渲染策略的优化也值得关注。6正交+2等距的8视图配置相比传统的4等距设置,为倒角和圆角提供了更清晰的几何线索。深度编码通过强度值的巧妙设计,让AI能够从2D图像中推断3D几何信息。这些看似细微的改进积累起来对最终性能产生了显著影响。

十、实际应用潜力与局限性分析

CADEvolve的成功为多个实际应用场景开辟了可能性。在工程设计领域,该技术可以作为设计师的智能助手,根据草图或参考图像快速生成可编辑的CAD模型,大大加速概念设计到详细设计的过程。在逆向工程方面,CADEvolve能够从产品照片或扫描数据重建参数化模型,为产品改进和制造提供便利。

在教育领域,这项技术可以帮助学生学习CAD操作序列,通过观察AI如何将复杂形状分解为基础操作步骤来理解设计思路。对于CAD软件开发商来说,CADEvolve提供了一个强大的自动化工具,可以集成到现有软件中提供智能建模功能。

在制造业,特别是3D打印和快速原型制造领域,CADEvolve能够快速将设计想法转换为可制造的模型,缩短产品开发周期。对于定制化制造,客户可以通过简单的图像描述获得专业的CAD模型,降低了定制产品的门槛。

然而,研究团队也坦承了系统的一些局限性。首先是合成分布不匹配问题。CADEvolve是通过进化循环产生的合成数据集,并不旨在匹配任何单一的专有工业CAD分布。因此,诱导的形状和操作频率可能与真实世界数据有所不同。尽管实验中观察到了跨多个基准的改进泛化,包括MCB上的更强性能,但团队并不声称与任何特定工业领域的分布级保真度。

其次是CadQuery方言范围限制。生成的程序使用CadQuery表达,虽然许多操作在概念上是可移植的(如挤压、旋转、放样、扫掠、倒角/圆角、布尔运算),但由于特征历史表示、内核行为和约束语义的差异,忠实转换到其他CAD系统可能并非易事。

计算成本也是需要考虑的因素。进化过程需要大量的LLM调用和几何验证,这在实际部署时可能成为瓶颈。研究团队发现,随着进化的深入,无效提案率会显著上升,这降低了计算效率。

最后,虽然CADEvolve显著扩展了操作覆盖范围,但仍然存在一些高级CAD功能的空白,如装配体建模、约束求解和参数化关联等。这些限制反映了当前方法的边界,也为未来研究指明了方向。

说到底,CADEvolve为AI辅助CAD设计领域带来了突破性进展。通过巧妙的进化数据生成、严格的质量控制和创新的训练方法,这项研究不仅解决了CAD训练数据稀缺的问题,更重要的是展示了AI在复杂工程设计中的巨大潜力。

虽然仍存在一些局限性,但CADEvolve已经为未来的研究奠定了坚实基础。随着计算能力的提升和算法的进一步优化,我们有理由期待AI将在不远的将来成为工程师们不可或缺的设计伙伴。这项来自莫斯科国立大学等机构的研究(arXiv:2602.16317v1)不仅推动了学术进展,更为整个CAD行业的智能化转型指明了方向。对于那些对AI与工程设计交叉领域感兴趣的读者,这篇论文无疑值得深入研究和思考。

Q&A

Q1:CADEvolve是什么?

A:CADEvolve是一个由莫斯科国立大学等机构开发的AI系统,它能像生物进化一样从简单几何体开始,逐步"进化"出复杂的工业级CAD设计。该系统包含进化流水线、包含130万个脚本的数据集,以及能将图像转换为CAD代码的AI模型。

Q2:CADEvolve比传统CAD数据生成方法有什么优势?

A:传统方法主要局限于简单的"画图-拉伸"操作,而CADEvolve能处理旋转、扫掠、放样、倒角等复杂操作的组合。它通过AI进化生成了7945个复杂参数化生成器,涵盖完整的CadQuery操作集,是第一个真正覆盖工业级CAD操作的开源数据集。

Q3:普通工程师如何使用CADEvolve技术?

A:工程师可以通过CADEvolve-M模型,仅凭产品照片或多视图图像就能生成对应的可编辑CAD程序。这大大加速了从概念设计到详细建模的过程,特别适用于逆向工程、快速原型制作和定制化产品开发等场景。