Blender 构图 + ComfyUI 编排 + RTX 推理 = 真正“可控”的 AI 生成工作流。
4 月 30 日,NVIDIA 发布全新AI Blueprint,让你用 3D 场景“摆拍”生成图像,彻底摆脱 prompt 调参焦虑。
NVIDIA 正式发布的这一套新的生成式 AI 工具链 ——“3D 引导式生成 AI 蓝图”(3D-Guided Generative AI Blueprint),向公众开放下载。这套系统并不是传统意义上的新模型,而是一个集成了 Blender 场景建模、ComfyUI 图像生成工作流和 FLUX.1-dev 模型部署的完整解决方案。
相比传统的 text-to-image 模式,这一蓝图最大的亮点在于:
通过 3D 场景草图,引导 AI 控制图像构图、角度与物体位置,显著提升创作效率与图像一致性。
图源:Nvidia
01
问题出现
Prompt 已经撑不起创作的想象力
过去两年里,生成式 AI(AIGC)正在从“能用”走向“好用”。Midjourney、DALL·E、Stable Diffusion 的涌现让图像创作门槛前所未有地降低。但一个越来越明显的问题是:
我们仍然很难“控制”图像内容的具体细节。过去,使用者普遍面临两个老问题:
构图无法控制:输入再多 prompt,也很难精准控制物体摆放位置或画面视角;
效果难以复现:稍微修改提示词,生成结果就天差地别。
生成式 AI 的最大瓶颈之一,不再是画得好不好,而是画得对不对。这背后,本质是 AI 图像生成模型“缺乏空间理解能力”,无法基于用户意图精准地构图和布局。
图源:Nvidia
那么,NVIDIA 提出的解决方案是:与其反复写 prompt,不如直接在 3D 空间里“搭个草图”。
具体来说,用户可以在 Blender 中快速搭建一个粗略的 3D 场景(哪怕只是立方体和球体),并调整好摄像机角度。随后,系统会将这个场景转为深度图(Depth Map),并与文本 prompt 一起输入图像生成模型,生成结果就能完整继承你的“构图意图”。
这种方式被称为3D 引导式生成,在控制感与稳定性上,远优于纯文本提示。
02
产品剖析
NVIDIA 如何做到“结构可控”的图像生成?
NVIDIA 本次发布的是一个完整的“可控图像生成工作流蓝图”,并不是单一模型,而是由以下三大核心模块构成:
1)Blender:用空间语言表达视觉意图
用户无需精细建模,只需用简单的 3D 几何体快速搭建一个“草图级”场景,确定物体大致位置、相对比例、视角等,Blender 自动导出深度图(Depth Map)。
深度图是本次生成控制的关键,它为模型提供了一种“空间框架”,告诉它“要把谁放在哪里”。
图源:Nvidia
2)ComfyUI:模块化 AI 工作流管理器
NVIDIA 选择了当前最流行的 AI 工作流平台之一 ComfyUI,用来串联图像生成节点、输入 prompt、导入深度图,实现流程自动化。
ComfyUI 支持开箱即用的可视化拖拽界面,同时也能对接 Blender 插件,实现 3D 场景与图像生成的闭环。
图源:Nvidia
3)FLUX.1-dev 模型:理解“构图”的 AI 画手
由 Black Forest Labs 开发的FLUX.1-dev是一个具备深度图输入能力的高质量图像生成模型。在 NVIDIA 的部署中,它被封装为NIM 微服务格式,用于在 RTX GPU 上进行高性能推理。
图源:Nvidia
三大技术组件:构成完整可控工作流
据官方信息,本次发布的“蓝图”包含以下核心组成部分:
同时,该系统还借助NVIDIA NIM 微服务架构进行部署。通过集成 TensorRT 和模型量化技术,蓝图在 RTX 显卡上的运行效率显著提升。
图源:Nvidia
这样的流程,有几个关键突破:
构图明确:通过 3D 场景定义前景/背景、左右分布、视角透视;
结果稳定:相比 prompt,深度图极大减少了模型输出的随机性;
操作灵活:移动 Blender 中物体或镜头,即可“重拍”图像,无需改 prompt。
对比之下,传统 prompt-only 的图像生成方式更像是在盲盒中寻找“感觉对”的图。而 NVIDIA 的 3D 引导方式,则更像是一种AI 摄影——你决定怎么摆景、从哪个角度拍,它来帮你完成渲染。
这意味着,设计师、艺术家、开发者可以先用 Blender 进行结构搭建,再由 AI 模型完成风格化创作,极大减少 prompt 微调时间,提升迭代效率。
03
部署要求
性能要求不低,但本地运行无压力
在部署和性能层面,NVIDIA 的优势几乎无出其右:
模型格式:NIM 微服务
NIM(NVIDIA Inference Microservice)是 NVIDIA 推出的新一代部署格式,具备快速加载、资源调度、标准化 API 的能力。对开发者来说,它降低了模型服务上线的门槛。
推理加速:TensorRT + FP8/FP4 量化
在 RTX Ada Lovelace 架构(如 RTX 4080/4090)上,支持 FP8 推理;
在 Blackwell 架构 GPU 上(如未来的 RTX 5090),支持 FP4,显著降低显存占用并提升吞吐;
实测显示,相较 FP16 原生模型,推理速度提升可达 2~2.5 倍
图源:Nvidia
使用门槛与安装指南:谁能用、怎么用?
根据 NVIDIA 官网说明,该工作流适用于 RTX 4080 或更高 GPU,同时需要至少 48GB 系统内存 和 16GB 显存。系统层面支持 Windows Subsystem for Linux(WSL)和原生 Linux。
推荐配置:
值得注意的是,该蓝图并不包含模型本体,而是提供了自动化脚本用于下载。蓝图内含:
ComfyUI 安装脚本与插件
ComfyUI-Blender 接口插件
FLUX.1-dev 模型的 NIM 微服务封装
示例 3D 场景与 Prompt
一键部署指南
图源:Nvidia
整个系统以本地部署为主,对隐私和创作场景较为友好。目前版本限于非商业使用,企业用户需另行联系官方授权。
获取方式:
前往 NVIDIA 官方生成式 AI 蓝图站点下载
https://build.nvidia.com/nvidia/genai-3d-guided
04
从写 prompt到搭场景,创作方式正被重塑
生成式 AI 正在从“文字生成图像”的模式,演变为“结构控制内容”的新阶段。NVIDIA 的这套蓝图给行业提了个醒:
未来的创作工具,不再是写一句话让 AI 理解,而是像导演一样,用 3D 空间布置镜头与场景,引导 AI 生成内容。
如你是设计师、游戏开发者、视觉创意人员或 AI 开发者,不妨尝试这套新工作流——用构图替代 prompt,用场景语言定义内容走向,或许你会找回对创作的掌控感。
最后一问:Prompt 工程会被取代吗?
不是被取代,而是被重新定义。
在未来的 AI 创作流程中,我们可能会使用这样的方式:
用 Blender 画草图构图;
用 Prompt 描述风格;
用节点控制特效;
最后由模型执行渲染任务。
我们将用空间和图形语言引导 AI 创作。这,或许才是真正属于创作者的生成式 AI。
热门跟贴