Blender 构图 + ComfyUI 编排 + RTX 推理 = 真正“可控”的 AI 生成工作流。

4 月 30 日,NVIDIA 发布全新AI Blueprint,让你用 3D 场景“摆拍”生成图像,彻底摆脱 prompt 调参焦虑。

NVIDIA 正式发布的这一套新的生成式 AI 工具链 ——“3D 引导式生成 AI 蓝图”(3D-Guided Generative AI Blueprint),向公众开放下载。这套系统并不是传统意义上的新模型,而是一个集成了 Blender 场景建模、ComfyUI 图像生成工作流和 FLUX.1-dev 模型部署的完整解决方案。

相比传统的 text-to-image 模式,这一蓝图最大的亮点在于:

通过 3D 场景草图,引导 AI 控制图像构图、角度与物体位置,显著提升创作效率与图像一致性。

图源:Nvidia

01

问题出现

Prompt 已经撑不起创作的想象力

过去两年里,生成式 AI(AIGC)正在从“能用”走向“好用”。Midjourney、DALL·E、Stable Diffusion 的涌现让图像创作门槛前所未有地降低。但一个越来越明显的问题是:

我们仍然很难“控制”图像内容的具体细节。过去,使用者普遍面临两个老问题:

  • 构图无法控制:输入再多 prompt,也很难精准控制物体摆放位置或画面视角;

  • 效果难以复现:稍微修改提示词,生成结果就天差地别。

生成式 AI 的最大瓶颈之一,不再是画得好不好,而是画得对不对。这背后,本质是 AI 图像生成模型“缺乏空间理解能力”,无法基于用户意图精准地构图和布局。

图源:Nvidia

那么,NVIDIA 提出的解决方案是:与其反复写 prompt,不如直接在 3D 空间里“搭个草图”。

具体来说,用户可以在 Blender 中快速搭建一个粗略的 3D 场景(哪怕只是立方体和球体),并调整好摄像机角度。随后,系统会将这个场景转为深度图(Depth Map),并与文本 prompt 一起输入图像生成模型,生成结果就能完整继承你的“构图意图”。

这种方式被称为3D 引导式生成,在控制感与稳定性上,远优于纯文本提示。

02

产品剖析

NVIDIA 如何做到“结构可控”的图像生成?

NVIDIA 本次发布的是一个完整的“可控图像生成工作流蓝图”,并不是单一模型,而是由以下三大核心模块构成:

1)Blender:用空间语言表达视觉意图

用户无需精细建模,只需用简单的 3D 几何体快速搭建一个“草图级”场景,确定物体大致位置、相对比例、视角等,Blender 自动导出深度图(Depth Map)

深度图是本次生成控制的关键,它为模型提供了一种“空间框架”,告诉它“要把谁放在哪里”。

图源:Nvidia

2)ComfyUI:模块化 AI 工作流管理器

NVIDIA 选择了当前最流行的 AI 工作流平台之一 ComfyUI,用来串联图像生成节点、输入 prompt、导入深度图,实现流程自动化。

ComfyUI 支持开箱即用的可视化拖拽界面,同时也能对接 Blender 插件,实现 3D 场景与图像生成的闭环。

图源:Nvidia

3)FLUX.1-dev 模型:理解“构图”的 AI 画手

由 Black Forest Labs 开发的FLUX.1-dev是一个具备深度图输入能力的高质量图像生成模型。在 NVIDIA 的部署中,它被封装为NIM 微服务格式,用于在 RTX GPU 上进行高性能推理。

图源:Nvidia

三大技术组件:构成完整可控工作流

据官方信息,本次发布的“蓝图”包含以下核心组成部分:

同时,该系统还借助NVIDIA NIM 微服务架构进行部署。通过集成 TensorRT 和模型量化技术,蓝图在 RTX 显卡上的运行效率显著提升。

图源:Nvidia

这样的流程,有几个关键突破:

  • 构图明确:通过 3D 场景定义前景/背景、左右分布、视角透视;

  • 结果稳定:相比 prompt,深度图极大减少了模型输出的随机性;

  • 操作灵活:移动 Blender 中物体或镜头,即可“重拍”图像,无需改 prompt。

对比之下,传统 prompt-only 的图像生成方式更像是在盲盒中寻找“感觉对”的图。而 NVIDIA 的 3D 引导方式,则更像是一种AI 摄影——你决定怎么摆景、从哪个角度拍,它来帮你完成渲染。

这意味着,设计师、艺术家、开发者可以先用 Blender 进行结构搭建,再由 AI 模型完成风格化创作,极大减少 prompt 微调时间,提升迭代效率。

03

部署要求

性能要求不低,但本地运行无压力

在部署和性能层面,NVIDIA 的优势几乎无出其右:

模型格式:NIM 微服务

NIM(NVIDIA Inference Microservice)是 NVIDIA 推出的新一代部署格式,具备快速加载、资源调度、标准化 API 的能力。对开发者来说,它降低了模型服务上线的门槛。

推理加速:TensorRT + FP8/FP4 量化

  • 在 RTX Ada Lovelace 架构(如 RTX 4080/4090)上,支持 FP8 推理;

  • 在 Blackwell 架构 GPU 上(如未来的 RTX 5090),支持 FP4,显著降低显存占用并提升吞吐;

实测显示,相较 FP16 原生模型,推理速度提升可达 2~2.5 倍

图源:Nvidia

使用门槛与安装指南:谁能用、怎么用?

根据 NVIDIA 官网说明,该工作流适用于 RTX 4080 或更高 GPU,同时需要至少 48GB 系统内存 和 16GB 显存。系统层面支持 Windows Subsystem for Linux(WSL)和原生 Linux。

推荐配置:

值得注意的是,该蓝图并不包含模型本体,而是提供了自动化脚本用于下载。蓝图内含:

  • ComfyUI 安装脚本与插件

  • ComfyUI-Blender 接口插件

  • FLUX.1-dev 模型的 NIM 微服务封装

  • 示例 3D 场景与 Prompt

  • 一键部署指南

图源:Nvidia

整个系统以本地部署为主,对隐私和创作场景较为友好。目前版本限于非商业使用,企业用户需另行联系官方授权。

获取方式:

前往 NVIDIA 官方生成式 AI 蓝图站点下载
https://build.nvidia.com/nvidia/genai-3d-guided

04

从写 prompt到搭场景,创作方式正被重塑

生成式 AI 正在从“文字生成图像”的模式,演变为“结构控制内容”的新阶段。NVIDIA 的这套蓝图给行业提了个醒:

未来的创作工具,不再是写一句话让 AI 理解,而是像导演一样,用 3D 空间布置镜头与场景,引导 AI 生成内容。

如你是设计师、游戏开发者、视觉创意人员或 AI 开发者,不妨尝试这套新工作流——用构图替代 prompt,用场景语言定义内容走向,或许你会找回对创作的掌控感。

最后一问:Prompt 工程会被取代吗?

不是被取代,而是被重新定义。

在未来的 AI 创作流程中,我们可能会使用这样的方式:

  • 用 Blender 画草图构图;

  • 用 Prompt 描述风格;

  • 用节点控制特效;

  • 最后由模型执行渲染任务。

我们将用空间和图形语言引导 AI 创作。这,或许才是真正属于创作者的生成式 AI。