提起虚拟世界,你也许马上会联想到电影《黑客帝国》、《头号玩家》以及开放世界游戏《荒野大镖客》、《GTA》等娱乐消费级场景。构建这些虚拟世界背后的 3D 资产,已经形成了数百亿美元的巨大市场。
但实际上,3D 虚拟世界在工业设计、标注数据生成、算法训练等诸多工业场景下,都具有巨大的需求潜力。
从文字、音频(1D)到图片、视频(2D),AI 技术的飞速发展引发了内容生产方式的革命性变化,在巨大的市场驱动下,3D 正逐渐成为人工智能生成内容(AIGC,Artificial Intelligence Generated Content)的下一个“战场”。
今年 9 月,美国国家工程院院士、美国斯坦福大学教授李飞飞以打造大世界模型为目标,宣布成立美国 AI 初创公司 WorldLabs,并提出“空间智能”的概念。
在国内,一家名为 Intime AI(虚时科技)的初创公司聚焦高保真 3D 场景的自动生成领域,在行业内逐渐崭露头角。
值得关注的是,该公司从筹备至今历时仅半年时间,已经在技术上取得突破,并在某 S 级影视剧的绿幕背景合成环节实现商业落地。
据悉,目前 Intime AI 自研的 Aether 模型能够基于提示词在数小时内生成达到影视级标准的高保真、可编辑 3D 场景,与传统方式相比,效率提升了数十倍。
3D AIGC 面临的挑战与困境
从文字、音频到图片、视频,AIGC 的发展路径与人类对内容的主流消费模式是高度关联的,人类总是倾向于消费单位时间内信息密度更高的内容形式。
在此过程中,形成了众多耳熟能详的 AIGC 大模型。例如,以 GPT-4 为代表的自然语言处理模型,以 Midjourney 为代表的图片生成模型,以 Sora、Runway 和可灵 AI 为代表的视频生成模型。
但是,既然人类并不能直接感知、消费 3D 内容,为什么 3D 还能成为 AIGC 的一个重要的发展领域?为什么前些年提出的元宇宙、XR 等 3D 消费场景能够一度激发如此大的市场热情?
终其原因,物理世界本质是三维的,3D 是现实世界的表示形式与信息的终极载体。因此,3D 表现形式独有的空间感知能力,能够为内容增添沉浸感和真实感,并真实无损地传递信息。
而降维储存信息的方式,无论文字、图片还是音视频,都会导致信息损失,在“所想”与“所见”之间割裂出一道鸿沟。
从 AIGC 的角度来看,3D 内容的终极目标,即大世界模型,不仅有望突破现有需求的极限,在娱乐、教育、科研、设计和制造等多个领域激发新的需求,提供全新的用户体验,其本身对于 AI 的演进和智能的进一步涌现,也具有决定性意义。
然而,想要真正实现虚拟世界的实时生成能力,3D AIGC 仍面临诸多挑战。首当其冲的问题就是 3D 数据集的极度稀疏,由于 3D 数据的应用领域繁多、各领域对 3D 数据的表达差异显著,数据收集与标注的难度极大。
同时,与 2D 数据相比,3D 数据复杂度高,并缺乏通用性表达,即使获得了足够的数据,能否无损地输入模型进行训练也是一个不小的挑战。
另外,AIGC 目前普遍面临可控性差的问题,使其难以嵌入专业的生产管线,这在图片、视频等领域均有体现。但对于专业门槛更高、分工更加精细的 3D 领域,无法渗透到传统的工作流意味着产品从根本上“不可用”,这将导致该领域的商业化落地显得困难重重。
用自研技术框架型,弥合“所想”和“所见”之间的鸿沟
为应对上述挑战,Intime AI 突破现有主流方案,提出了一种颠覆性的自研技术框架,并在此框架下开发出一整套原创算法,通过把 3D 数据降维进行通用表达,不仅大幅降低了训练数据量级,同时还将真实物理世界的参数引入模型,显著提升了模型的生成质量。
此外,模型生成内容还具备完全的可编辑性,使其能够很好地嵌入下游需求方的生产管线。
这款文生 3D 场景模型目前被命名为“Aether”,名称缘起于漫威宇宙中的现实宝石,象征着团队希望通过这项技术实现随意创造并改造数字世界的能力。
Intime AI 创始人兼 CEO 王德駪博士说道:“3D AIGC 面临的数据集稀疏、商业化落地难等痛点是客观事实,但机遇和挑战永远是一体两面的,目前的各种难题使得行业在短期内难以出现一个通用性的解决方案,这也给了我们这样的初创公司进入行业和快速发展的机会。”
对于解决 3D 领域挑战的核心,王德駪认为最终还是需要着眼于算法。“数据量、可控性、可编辑等问题对于 DiT(Diffusion Transformer)架构来说是极难解决的。其实对于 AI 本身来说,Transformer 架构的潜力也已经接近瓶颈,我们想要在 3D 这条路上走下去、走得远,就必须在技术框架和算法层面进行革新。”
通过一系列的大胆尝试和技术革新,Aether 模型目前已经取得了一定的技术优势,主要表现为:
第一,生产效率高。
传统方法制作大型世界场景需要数周甚至数月的时间,而该模型能在几小时内完成同等规模场景的生成,小规模场景可在不到 1 小时内完成。
第二,生成内容质量比肩人工建模水平。
值得关注的是,Aether 模型的核心算法由团队自研,不同于传统的 DiT 架构,该算法通过引入物理参数和对人工建模过程的模拟,使得模型的生成质量得到大幅提升,尤其在保真度和几何结构、拓扑布线等方面,质量已接近人工建模的水平。
在精度方面,模型生成的单一场景包含超过 2000 万个平面多边形,超高的细腻度使生成场景的呈现效果更加真实和自然。
第三,由模型生成的场景和其中的各项资产均具有高度可编辑性。
基于 DiT 架构生成的内容普遍面临可控性差的问题,使其难以嵌入传统的专业生产管线,这在 3D 领域显得尤为突出。
Aether 模型的优势之一在于,其生成场景及其中的所有资产均支持用户二次编辑,并能输出适配主流 3D 引擎的各种文件格式,这对于快速实现商业化具有重要意义。
从 3D 场景生成向 4D 大世界模型推进
王德駪在 AI 领域深耕十余年,于美国特拉华大学获得博士学位,期间主要研究方向为机器学习算法和优化。
毕业后曾在美国科技公司亚马逊长期担任 Alexa 语音助手项目语音识别技术(ASR,Automatic Speech Recognition)的负责人,带领团队落地了基于 Transformer 架构的语音识别模型。
在美国学习和工作的十余年时间中,他的工作和研究覆盖了 AI 算法的多个方向和数据结构,并拥有多项语音算法专利。
见证了 AI 技术从机器学习到深度学习算法,再到基于 Transformer 架构的大模型,技术的持续爆发和应用场景的不断演变让他深刻感受到,3D 将是 AIGC 的下一个涌现。
Intime AI 的创始团队汇集了海内外知名互联网巨头的技术骨干,以及工业 3D 设计、金融投资等领域的行业专家,能够助力公司在发展战略、产品适配、商业路径规划等方面合理规划。
王德駪表示:“除了在技术层面的革新,我们在产品定位和商业化方面做了大量思考与行业调研,对于现阶段的技术能力来说,我认为 3D AIGC 应该先做到‘能用‘、‘垂直领域商业化’,再向‘好用’和‘多领域全面商业化’去发展。
“无论在影视还是游戏中,‘对象’给到用户的第一需求场景就是道具、角色形象,但这些基本都是以近景、特写的形式呈现的,这就对模型的质量提出了很高的要求,而质量不够高、可控性差又恰恰是目前 AIGC 的难点,这就导致了商业落地难的问题。”
他指出,相反,“场景”往往是以中远景去进行视觉呈现,这天然给 AI 生成内容提供了一定的包容度。因此 Intime AI 认为,从“场景”出发是更好的切入点,产品落地的可能性更高。
目前 Intime AI 已经与行业内头部影视制作公司达成合作,通过高效生成 3D 场景帮助用户进行影视素材的背景合成和虚拟拍摄等工作。
当前,公司以场景生成为切口,通过嵌入影视行业传统工作流,在拓展 B 端业务的同时积累高质量数据、推动模型基础能力的持续提升。
未来一至两年内,公司计划将模型 SaaS 化,打造面向 3D 专业创作者的高效智能工具,通过数据飞轮大幅提升模型的泛化能力,提供 3D 资产生成的通用性解决方案,并将公司业务范围重点拓展至游戏与空间智能领域。
“我们计划在未来一年内推出面向 C 端的 AI 3D 智能引擎,这将为专业创作者提供颠覆性的使用体验,并在游戏制作、空间智能等消费级与工业级场景打开广阔的市场空间,通过商业和技术的循环迭代打造强劲的竞争优势。”王德駪说。
此外,他们以实现 4D 大世界模型的生成能力为远期目标,计划进一步在模型中融入多种动态感知技术,如数字人与场景的互动、高质量物理模拟等。
随着 3D AIGC 领域技术的累积和发展,未来相关领域的传统生产方式是否会被完全替代呢?
王德駪认为,由于 3D 本身就是一个专业门槛很高的内容形式,且不同于图片或视频,3D 资产并没有很直接的 C 端消费场景,因此 3D AIGC 几乎只能作为传统创作者的辅助工具,嵌入专业生产管线中,而非彻底颠覆现有的内容生产方式和流程。
“面对诸多挑战,3D AIGC 应遵循‘渐进’、‘可行’的发展路径,这其中最关键的还是算法的突破和数据的积累。”他说。
尽管 AI 技术在 3D 领域仍面临许多未知和挑战,但正是这些未知因素,为技术发展和 3D AIGC 赛道的创业带来了无限的可能性。
参考资料:
https://www.intimeai.cn/
运营/排版:何晨龙
热门跟贴