这项由香港大学和LIGHTSPEED公司联合开展的研究发表于2026年的ICLR会议(arXiv:2602.12100v1),有兴趣深入了解的读者可以通过这个编号查询完整论文。这是一个关于如何让人工智能像玩乐高积木一样创造3D建筑的革命性突破。
你有没有想过,为什么现在的游戏和虚拟世界里的建筑物要花那么长时间才能制作出来?一个游戏公司的美术师可能需要花费数百小时才能精心设计和制作一个复杂的城堡或者现代建筑。而对于普通玩家来说,即使想要在游戏中自己建造一些简单的房子,也经常会因为操作复杂而感到困难。
现在,研究团队带来了一个全新的解决方案。他们开发了一个名为AssetFormer的系统,这个系统就像一个超级智能的建筑师助手。你只需要用普通话告诉它"我想要一个有很多窗户的多层公寓",或者"帮我建一个带尖塔的古堡",它就能自动为你搭建出来。
这个系统的核心思想其实很简单,就像我们小时候玩积木一样。不同的是,这些"数字积木"包括各种屋顶片、墙壁块、窗户、门等25种不同的建筑构件。每个构件都有自己的位置、朝向等属性,就像真正的积木有不同的颜色、大小和形状一样。
研究团队收集了大量真实玩家在游戏中创建的建筑数据,总共包含16000个真实样本和4000个程序生成的样本。这些数据就像是给AI系统看了成千上万本建筑设计图册,让它学会了各种建筑风格和搭配方法。
一、模块化建筑的魅力所在
传统的3D建筑制作就像雕刻一样,需要从一块"数字石头"开始,一点一点地雕琢出最终的形状。这种方法制作出来的建筑文件往往非常庞大,就像一个装满了无数细节的巨大行李箱,传输和存储都很困难。
而模块化建筑则完全不同。想象一下宜家家具的制作方式,所有复杂的家具都可以分解成标准化的零件,用户可以按照说明书轻松组装。模块化建筑采用的正是这种思路,将任何复杂的建筑都分解成标准的构件组合。
这种方法有几个显著的优势。首先,文件大小变得非常小巧,就像用压缩包装行李一样,原本需要几十兆的建筑文件现在可能只需要几KB。其次,这些建筑可以轻松地在不同的游戏引擎中使用,就像标准化的螺丝可以用在不同品牌的电器上一样。
最重要的是,普通玩家也能轻松地修改和创建建筑。就像搭积木一样,即使是没有专业建筑知识的人也能通过简单的拖拽和组合创造出令人惊叹的建筑作品。这为用户生成内容(UGC)开辟了全新的可能性。
研究团队特别强调,在数字游戏产业中,现有的3D生成方法虽然能创造出精美的几何形状和材质,但却面临着实际应用中的关键限制。专业游戏开发中,现有方法往往难以满足现代游戏的高质量标准,导致美术师需要花费数百小时来精雕细琢每个资产。同时,在用户生成内容和在线游戏场景中,传统表示方法产生的大文件大小给存储和传输带来了巨大挑战,这可能会给服务器基础设施带来压力,妨碍无缝共享和实时交互。
二、让AI学会"搭积木"的秘密
让人工智能学会像人一样搭建筑,关键在于教会它理解积木之间的逻辑关系。研究团队采用了一种巧妙的方法,就像教孩子按照一定的顺序来搭积木一样。
首先,他们需要解决一个核心问题:积木的摆放顺序。和写字要从左到右、从上到下一样,搭建筑也需要一个合理的顺序。但是3D建筑比文字复杂得多,因为它有空间结构和连接关系。研究团队设计了两种搜索方法,就像两种不同的搭积木策略。
深度优先搜索(DFS)就像是一个专注的建筑工人,他会专注于完成建筑的一个部分,比如先把一面墙完全搭好,再去搭另一面墙。广度优先搜索(BFS)则像是一个统筹全局的建筑师,他会先给整个建筑打好地基,然后同时推进各个部分。
通过大量实验,研究团队发现深度优先搜索的效果略好一些。这可能是因为建筑物的局部连接性更重要,就像搭积木时先把一个小单元搭稳了,再去搭下一个单元会更容易成功。
在训练过程中,系统学习的是"下一个积木应该放在哪里"的规律。就像学习语言时要理解"下一个词是什么"一样,这个AI系统要理解"下一个建筑构件应该是什么类型、放在什么位置、以什么角度"。
为了让AI更好地理解文字描述,研究团队还加入了文本控制功能。他们使用GPT-4o来为每个建筑生成描述性的文字,比如"公寓、多层、平屋顶、很多窗户"这样的短语组合。这样,AI就能理解人类的语言指令,并据此生成相应的建筑。
三、词汇表的巧妙设计
在这个系统中,每个建筑构件都需要用数字语言来描述,就像给每个积木编号一样。研究团队设计了一个特殊的"词汇表",包含了所有可能的构件类型、旋转角度和位置信息。
这个词汇表总共包含214个不同的"词汇"。其中25个代表不同的构件类型(比如各种屋顶、墙壁、门窗等),4个代表可能的旋转角度,其余的代表三维空间中的位置坐标。
最有趣的部分是如何处理这个混合词汇表。在生成过程中,AI需要按照特定的顺序来"说话":先说构件类型,再说旋转角度,最后说三维位置。这就像我们描述一个物品的位置时,会说"桌子上的红色杯子,杯柄朝向右边"一样,有着固定的描述顺序。
为了保证AI不会"说错话",研究团队设计了一个智能过滤机制。当AI应该说构件类型时,系统会自动屏蔽所有位置和角度相关的词汇,只让它从构件类型中选择。这就像在玩词语接龙游戏时,规定下一个词必须是动物名字一样,避免了语法错误。
这种设计让整个生成过程既灵活又可控,确保生成的每个建筑都是结构合理、逻辑清晰的。
四、加速生成的双模型策略
为了让建筑生成过程更快,研究团队开发了一种名为"SlowFast解码"的技术。这个方法就像工厂的流水线作业,用两个不同能力的AI模型来协作完成任务。
这种方法的核心思路是:简单的积木组合可以用小而快的模型来处理,复杂的结构设计则交给大而慢但更精确的模型。就像装配手机时,普通的螺丝拧紧可以用自动化设备快速完成,而精密芯片的安装则需要有经验的技师仔细操作。
在实际应用中,小模型(87M参数的AssetFormer-S)会快速预测一系列积木的摆放方案,然后大模型(312M参数的AssetFormer-B)会检查这些方案,保留合理的部分,修正有问题的地方。这种协作方式将生成速度从每秒80个构件提升到119个构件,同时保持了生成质量。
这种加速策略特别适合模块化3D资产生成,因为建筑中不同部分的复杂程度差别很大。标准的墙壁和窗户组合是相对简单的,可以用小模型快速处理;而复杂的转角结构或特殊的建筑连接则需要大模型的精确判断。
五、数据来源的双重保障
研究团队的数据来源采用了两条腿走路的策略。一方面,他们从真实的在线游戏平台收集了16000个由玩家手工创建的建筑作品。这些作品展现了真实玩家的创造力和审美偏好,包含了各种风格迥异、结构复杂的建筑设计。
另一方面,他们使用程序化生成技术创建了4000个标准建筑样本。这些样本虽然相对简单,但结构规整,为AI学习提供了良好的基础架构知识。
这种组合策略的效果出人意料地好。单独使用真实数据时,AI生成的建筑质量评分为63.381;单独使用程序化数据时,评分只有113.560(分数越低越好);但当两种数据结合使用时,评分却达到了55.186的最佳水平。
这种现象可以用"营养均衡"来理解。程序化数据就像标准化的营养品,提供了结构化的基础知识;真实数据则像丰富多彩的家常菜,带来了创意和多样性。两者结合,AI既学会了基本的建筑规律,又掌握了创意设计的技巧。
每个建筑平均包含超过4000个构件标记,复杂样本可包含多达1000个原始构件。为了支持文本控制,研究团队使用FLAN-T5 XL作为编码器,并通过多层感知器投影特征。他们还实施了10%的条件dropout比例来支持无分类器引导(CFG)。
六、性能表现与实际应用
在实际测试中,AssetFormer展现出了令人印象深刻的性能。研究团队使用了多种评估指标来检验系统的效果,包括FID(Fréchet Inception Distance)和CLIP评分等。
与传统的程序化生成方法相比,AssetFormer在生成质量上有了显著提升。程序化方法的FID评分为108.476,而AssetFormer达到了55.186的更好表现。更重要的是,AssetFormer能够根据文本描述生成相应的建筑,这是传统方法无法实现的。
在与其他先进3D生成方法的比较中,AssetFormer也展现出了独特的优势。虽然SF3D、Tripo 2.0、Trellis、Hunyuan3D 2.0等方法能够生成高质量的几何形状,但它们通常产生密集的网格,难以准确捕捉复杂的几何结构(特别是建筑内部结构),而且在纹理方面存在缺陷。
AssetFormer采用基于原语的表示方法,避免了生成低质量密集网格的问题,这些网格很难集成到工业流水线中。通过遵循首选规则的设计理念(例如具有平面的标准原语),AssetFormer在真实世界的流水线中通过原语纹理映射提供了精确的纹理。
用户研究结果进一步验证了系统的有效性。6名年龄在22-28岁之间的参与者对生成建筑的紧凑性、多样性、美观性和复杂性进行了评分。AssetFormer在多样性(3.50分)、美观性(3.50分)和复杂性(3.92分)方面都获得了良好评价,显示出了系统的实用价值。
七、技术创新的核心突破
AssetFormer的最大创新在于将自回归Transformer模型成功应用到了模块化3D资产生成领域。这种方法的核心思想是将复杂的3D建筑生成任务转化为序列预测问题,就像语言模型预测下一个词一样。
研究团队深入分析了模块标记化顺序和解码策略对生成质量的影响。他们发现,与随机顺序或广度优先搜索相比,深度优先搜索的标记化顺序能够更好地捕获建筑的层次结构和空间关系。这种发现对其他3D序列生成任务也具有重要的指导意义。
系统还引入了无分类器引导(CFG)机制,这是从文本到图像扩散模型中借鉴的技术。在训练过程中,系统会随机丢弃控制信号,并在推理过程中额外利用无条件逻辑。解码过程基于逻辑计算,通过调节CFG尺度来平衡生成质量和文本对齐度。
为了处理大词汇表的挑战,研究团队设计了token集合建模技术。每个原语由5个参数定义,需要维护不同属性的独立词汇表。虽然这种联合词汇表方法不影响训练(可以将周期性token序列作为下一个token预测的常规处理),但在推理时需要特殊考虑。为了确保有效的token集合解码,系统会过滤掉不需要的逻辑并重新归一化剩余的非零分布。
八、与现有方法的深度对比
研究团队进行了详细的对比分析,特别是与MeshGPT等基于网格表示的方法的比较。MeshGPT虽然也使用Transformer作为解码器,但它处理的是网格的顶点和面信息,随着任务复杂度增加(如生成具有大量顶点和面的复杂建筑),训练变得困难,解码经常失败。
相比之下,模块化表示更加高效,需要的token数量比基于网格的生成方法少得多。即使是专注于网格紧凑标记化的最新工作(如EdgeRunner),通常也只能处理少于4K面的网格,而AssetFormer的数据在转换为三角网格时可以包含超过30K个面。
研究团队还设计了一个对照实验,使用模块化数据导出对象几何(顶点和面),然后应用水密预处理生成原生3D生成模型的训练数据。结果显示,对象转换和水密处理导致模块化信息丢失,因为单个原语被合并成单一的非结构化网格。此外,这个过程还改变了精细细节,扭曲了来自资产库的原语几何结构。
即使在过拟合实验中(在10个模块化样本的小子集上微调Hunyuan3D 2.1),基础模型也无法捕获模块化数据的复杂结构,它会破坏单个原语,最终限制了原生3D生成在基于模块化应用中的实用性。
九、令人惊喜的编辑能力
值得注意的是,AssetFormer还展现出了意想不到的零样本编辑能力。虽然系统并没有专门为编辑任务进行训练,但它能够自然地完成建筑物的扩建和修改任务。
这种编辑能力被设计为序列修复任务。给定一个模块化建筑表示,系统首先执行基于DFS的token重排序作为预处理,使用这些重排序的token作为初始序列。不需要的原语(如现有的屋顶结构)可以被移除,剩余的token作为修复目标。
研究团队展示了两个典型的编辑案例:继续建造和添加屋顶。在"继续建造"案例中,系统能够理解现有建筑的结构,并自然地向上或向外扩展。在"添加屋顶"案例中,系统能够为现有的建筑结构添加适当的屋顶组件。
这种编辑能力的出现是系统深度理解建筑结构规律的体现。通过在文本到模块化建筑数据上的预训练,模型学习了模块化架构固有的结构约束和语义关系。
十、实际部署与应用前景
AssetFormer的设计充分考虑了实际应用需求。生成的模块化资产可以无缝集成到游戏引擎中,无需像MeshGPT那样进行顶点合并等后处理步骤。这种特性使得AssetFormer特别适合实时内容生成和用户生成内容场景。
在纹理方面,虽然AssetFormer专注于学习模块化资产的排列,纹理考虑通常留给生产中的后处理,但模块化表示的性质使得纹理映射变得更加简单直接。研究团队展示了生成资产与不同纹理模块映射的效果,证明了这种方法在实际生产流程中的灵活性。
模块化表示还支持程序化和生成式纹理渲染技术,允许动态和多样化的视觉输出。这种灵活性与行业实践保持一致,能够实现与特定场景或游戏美学的无缝集成。
研究团队特别强调,他们的方法不仅是学术研究,更是面向实际应用的解决方案。AssetFormer生成的建筑可以直接在Unreal Engine等主流游戏引擎中使用,支持简单编辑、光照控制和几何映射等功能。
这项研究为3D内容生成领域开辟了新的方向。通过将复杂的3D资产生成问题转化为序列建模问题,AssetFormer不仅提高了生成效率,还降低了使用门槛,为普通用户创造3D内容提供了强有力的工具。
研究团队认为,AssetFormer将对不断发展的3D内容创作领域做出重大贡献,并能够实现广泛的现实世界应用。这个灵活的框架可以扩展到各种类型的模块化3D资产,为3D内容生成的更广阔领域做出贡献。
说到底,这项研究最重要的意义在于它让3D建筑创作变得像写文章一样简单直观。普通人不再需要掌握复杂的3D建模软件,只需要用自然语言描述想法,AI就能帮助实现创意。这不仅会revolutionize游戏开发流程,更可能催生全新的用户生成内容生态系统。当每个人都能轻松创建专业水准的3D建筑时,虚拟世界的多样性和创造力将得到前所未有的释放。
Q&A
Q1:AssetFormer是什么,它能做什么?
A:AssetFormer是香港大学开发的AI建筑生成系统,能根据文字描述自动创建3D建筑。比如你说"我要一个多层公寓,有很多窗户",它就能像搭积木一样自动组装出相应的建筑模型,生成的建筑可以直接在游戏引擎中使用。
Q2:AssetFormer生成的建筑和其他3D生成方法有什么不同?
A:主要区别是AssetFormer使用模块化积木方式而不是传统的密集网格。这使得文件更小、传输更快、修改更容易,就像宜家家具可以打包运输、按需组装一样。而且生成的建筑纹理更精确,更适合游戏开发的实际需求。
Q3:普通人能使用AssetFormer创建建筑吗?
A:能的,这正是研究的目标之一。AssetFormer降低了3D建筑创作的门槛,用户只需要用自然语言描述想要的建筑特征,无需掌握复杂的3D建模技术。这为游戏中的用户生成内容开辟了新可能,让更多人能参与虚拟世界的建设。
热门跟贴