基于全新技术框架与生成算法，AI初创公司解锁工业级3D AIGC|初创公司|大模型|生成算法

提起虚拟世界，你也许马上会联想到电影《黑客帝国》、《头号玩家》以及开放世界游戏《荒野大镖客》、《GTA》等娱乐消费级场景。构建这些虚拟世界背后的 3D 资产，已经形成了数百亿美元的巨大市场。

但实际上，3D 虚拟世界在工业设计、标注数据生成、算法训练等诸多工业场景下，都具有巨大的需求潜力。

从文字、音频（1D）到图片、视频（2D），AI 技术的飞速发展引发了内容生产方式的革命性变化，在巨大的市场驱动下，3D 正逐渐成为人工智能生成内容（AIGC，Artificial Intelligence Generated Content）的下一个“战场”。

今年 9 月，美国国家工程院院士、美国斯坦福大学教授李飞飞以打造大世界模型为目标，宣布成立美国 AI 初创公司 WorldLabs，并提出“空间智能”的概念。

在国内，一家名为 Intime AI（虚时科技）的初创公司聚焦高保真 3D 场景的自动生成领域，在行业内逐渐崭露头角。

值得关注的是，该公司从筹备至今历时仅半年时间，已经在技术上取得突破，并在某 S 级影视剧的绿幕背景合成环节实现商业落地。

据悉，目前 Intime AI 自研的 Aether 模型能够基于提示词在数小时内生成达到影视级标准的高保真、可编辑 3D 场景，与传统方式相比，效率提升了数十倍。

3D AIGC 面临的挑战与困境

从文字、音频到图片、视频，AIGC 的发展路径与人类对内容的主流消费模式是高度关联的，人类总是倾向于消费单位时间内信息密度更高的内容形式。

在此过程中，形成了众多耳熟能详的 AIGC 大模型。例如，以 GPT-4 为代表的自然语言处理模型，以 Midjourney 为代表的图片生成模型，以 Sora、Runway 和可灵 AI 为代表的视频生成模型。

但是，既然人类并不能直接感知、消费 3D 内容，为什么 3D 还能成为 AIGC 的一个重要的发展领域？为什么前些年提出的元宇宙、XR 等 3D 消费场景能够一度激发如此大的市场热情？

终其原因，物理世界本质是三维的，3D 是现实世界的表示形式与信息的终极载体。因此，3D 表现形式独有的空间感知能力，能够为内容增添沉浸感和真实感，并真实无损地传递信息。

而降维储存信息的方式，无论文字、图片还是音视频，都会导致信息损失，在“所想”与“所见”之间割裂出一道鸿沟。

从 AIGC 的角度来看，3D 内容的终极目标，即大世界模型，不仅有望突破现有需求的极限，在娱乐、教育、科研、设计和制造等多个领域激发新的需求，提供全新的用户体验，其本身对于 AI 的演进和智能的进一步涌现，也具有决定性意义。

然而，想要真正实现虚拟世界的实时生成能力，3D AIGC 仍面临诸多挑战。首当其冲的问题就是 3D 数据集的极度稀疏，由于 3D 数据的应用领域繁多、各领域对 3D 数据的表达差异显著，数据收集与标注的难度极大。

同时，与 2D 数据相比，3D 数据复杂度高，并缺乏通用性表达，即使获得了足够的数据，能否无损地输入模型进行训练也是一个不小的挑战。

另外，AIGC 目前普遍面临可控性差的问题，使其难以嵌入专业的生产管线，这在图片、视频等领域均有体现。但对于专业门槛更高、分工更加精细的 3D 领域，无法渗透到传统的工作流意味着产品从根本上“不可用”，这将导致该领域的商业化落地显得困难重重。

用自研技术框架型，弥合“所想”和“所见”之间的鸿沟

为应对上述挑战，Intime AI 突破现有主流方案，提出了一种颠覆性的自研技术框架，并在此框架下开发出一整套原创算法，通过把 3D 数据降维进行通用表达，不仅大幅降低了训练数据量级，同时还将真实物理世界的参数引入模型，显著提升了模型的生成质量。

此外，模型生成内容还具备完全的可编辑性，使其能够很好地嵌入下游需求方的生产管线。

这款文生 3D 场景模型目前被命名为“Aether”，名称缘起于漫威宇宙中的现实宝石，象征着团队希望通过这项技术实现随意创造并改造数字世界的能力。

Intime AI 创始人兼 CEO 王德駪博士说道：“3D AIGC 面临的数据集稀疏、商业化落地难等痛点是客观事实，但机遇和挑战永远是一体两面的，目前的各种难题使得行业在短期内难以出现一个通用性的解决方案，这也给了我们这样的初创公司进入行业和快速发展的机会。”

对于解决 3D 领域挑战的核心，王德駪认为最终还是需要着眼于算法。“数据量、可控性、可编辑等问题对于 DiT（Diffusion Transformer）架构来说是极难解决的。其实对于 AI 本身来说，Transformer 架构的潜力也已经接近瓶颈，我们想要在 3D 这条路上走下去、走得远，就必须在技术框架和算法层面进行革新。”

通过一系列的大胆尝试和技术革新，Aether 模型目前已经取得了一定的技术优势，主要表现为：

第一，生产效率高。

传统方法制作大型世界场景需要数周甚至数月的时间，而该模型能在几小时内完成同等规模场景的生成，小规模场景可在不到 1 小时内完成。

第二，生成内容质量比肩人工建模水平。

值得关注的是，Aether 模型的核心算法由团队自研，不同于传统的 DiT 架构，该算法通过引入物理参数和对人工建模过程的模拟，使得模型的生成质量得到大幅提升，尤其在保真度和几何结构、拓扑布线等方面，质量已接近人工建模的水平。

在精度方面，模型生成的单一场景包含超过 2000 万个平面多边形，超高的细腻度使生成场景的呈现效果更加真实和自然。

第三，由模型生成的场景和其中的各项资产均具有高度可编辑性。

基于 DiT 架构生成的内容普遍面临可控性差的问题，使其难以嵌入传统的专业生产管线，这在 3D 领域显得尤为突出。

Aether 模型的优势之一在于，其生成场景及其中的所有资产均支持用户二次编辑，并能输出适配主流 3D 引擎的各种文件格式，这对于快速实现商业化具有重要意义。