MIT的41000个视频正在喂养能CAD建模的AI智能体

AM易道

2025-12-30 17:06 ·海南 ·优质科技领域创作者

本文阅读导图

AM易道分享

在AI努力提高生产力的时候，一直存在一个很大的问题。

研究员们始终无法让AI学会如何操作复杂的工业软件。

因为CAD软件始终是一种高度抽象思维的工具。

比如一位设计师在SolidWorks或Fusion 360中反复点击、拉伸、旋转时，他们实际上是在执行一种高度结构化的空间推理过程。

这种知识我们很难用文字形象的教给AI，我们只能说点哪里，然后点哪里，然后放大一点点。

上个月的公开信息值得分享，麻省理工学院研究团队正泰试图解决这个核心问题，让AI学会如何使用复杂的CAD工具。

超越指令集：让AI理解建模的语境

传统CAD自动化方案通常依赖于预设参数或模板，而MIT团队的VideoCAD项目选择了截然不同的路径。

他们构建了一个包含41000个建模视频的数据集。

该项目首席研究员Ghadi Nehme解释道：关键在于将高级设计指令转化为像素级的界面操作。

当人类工程师说绘制直线，AI需要理解这意味着一系列具体动作：

定位起点坐标、保持工具选中状态、拖动至终点位置。

这种转化过程的技术实现极具创新性。

研究团队开发了规则驱动的UI机器人，在Onshape平台上自动执行从JSON指令到界面操作的全流程。

每个操作步骤都被解构为鼠标轨迹、按键序列和视觉反馈的多元组合。

例如，一次简单的拉伸操作可能涉及17个离散动作：

从工具栏选择拉伸工具、点击草图轮廓、输入数值参数到确认执行。

这种精细化解构让AI能够学习到人类设计师的隐性知识,如何通过界面交互实现三维构思。

数据驱动的建模逻辑学习

VideoCAD数据集的真正价值在于其多模态特性。

它不仅记录了最终的三维模型，更捕捉了整个创作过程中的每一个决策节点。

数据集统计分析揭示了专业设计师的操作模式：

快捷键使用频率占主导（特别是Shift键的组合应用），鼠标移动轨迹呈现特定模式，多拉伸任务的操作序列长度达到单拉伸任务的近三倍。

MIT机械工程副教授Faez Ahmed指出：

我们训练的不是简单的形状生成器，而是具备界面交互能力的智能体。它学会的不仅是如何创建三维模型，更是如何在CAD环境中像人类一样思考和工作。

行业影响：设计新范式

我们认为，这项工作奠定了CAD-AI的技术基础。

未来我们可以期待AI不仅自动完成重复性建模任务，还能在设计的早期阶段提供智能建议。

这种技术突破将深刻改变设计工作流程。AI将利用这个数据集学会如何使用CAD工具。

未来这种技术可能催生全新的设计交互模式，设计师通过草图表达意图，AI负责技术实现，从此实现建模自由，AI操作CAD进行精准的建模。

结语

当前系统仍面临诸多挑战，研究团队提到处理复杂的装配体结构和工程约束仍是待攻克的难题。

未来的研究方向包括扩展数据集覆盖更多CAD软件平台，增强对参数化设计和设计意图的理解能力，以及开发支持实时协作的智能设计环境。

随着这项技术的成熟，未来的工程设计可能不再是人机分离的线性流程，而是真正意义上的智能共生系统。

当AI补齐了精准建模这一关键环节，从人类的创意草图到3D打印机上的实体构件，整个转化过程将变得前所未有的顺滑与高效。

我们将持续关注这个技术的发展。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴