打开网易新闻 查看精彩图片

本文刊发于《现代电影技术》2026年第3期

专家点评

季向阳

教授

清华大学自动化系脑与认知科学研究所所长,中国人工智能学会深度学习专委会主任

随着人工智能(AI)技术,特别是文生视频、文生3D大模型的发展与应用,传统影视内容创作面临的高成本、长周期等行业痛点有望被大模型技术重构。三维数字资产作为虚拟摄制、电影特效的核心生产要素,其快速生成、高精度还原与便捷编辑能力,正成为提升影视制作效率的关键手段。《影视数字资产的智能构建:基于Multi⁃SLAM+3DGS 技术的三维数字重建方案研究》一文针对影视制作中三维资产重建周期长、人工干预多、纯视觉方案鲁棒性差等问题,提出了一种融合Multi⁃SLAM和3DGS的影视化数字资产构建方案,在所选择的测试场景中取得了最优效果。论文总结了不同传感器的技术特点和应用场景,构建了涵盖弱纹理、透明物体、动态干扰的室内外场景测试数据集,并基于该数据集从定性结果、采集时间、重建时间等多个维度进行了实验对比,分析了3DGS 在编辑自由度以及重光照质量方面的局限性,为未来的工作提供了有益参考。总体而言,本文所解决的问题明确,方法描述较为详实,实验结果较为丰富,具有较好的方法创新和工程应用价值。论文现有实验对比主要以主观定性结果为主,建议在未来研究中补充峰值信噪比(PSNR)、结构相似性(SSIM)等客观定量指标的对比结果。

基金项目

国家社科基金艺术学重点项目“智能影像创作与传播的中国路径与自主体系研究”(25AC006);北京电影学院人才队伍建设资助计划——创新团队项目“电影智能制作中的艺术与科学融合发展研究”(3040025002)。

作者简介

打开网易新闻 查看精彩图片

陈 军

博士,北京电影学院智能影像工程学院研究员,主要研究方向:数字电影技术、电影虚拟化制作、电影智能制作。

卢柏宏

硕士,北京电影学院智能影像工程学院讲师,主要研究方向:电影虚拟化制作、电影智能制作、特种影像制作。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

黄子津

大学本科,深圳市其域创新科技有限公司合伙人,主要研究方向:空间智能技术、三维重建。

颜青松

博士,深圳市其域创新科技有限公司研发工程师,主要研究方向:视觉三维重建。

打开网易新闻 查看精彩图片

摘要

随着影视制作日益向虚拟化、实时化与空间智能化方向发展,传统三维数字重建与内容生成流程在精度、效率及可用性方面逐渐显现出局限性。本文聚焦多源传感融合⁃即时定位与地图构建(Multi⁃SLAM)、3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术,阐述了Multi⁃SLAM+3DGS在空间几何获取、建模质量、重建效率及行业适用性等方面的技术特点与优势,并通过与基于微型单反相机、全景相机等纯视觉3DGS工作流的实测对比,验证了该方案在影视多场景应用中的普适性与先进性,构建了一套面向影视生产的从物理空间到三维数字资产转化的智能一体化解决方案。研究结果表明,Multi⁃SLAM+3DGS在室内外场景的扫描与重建中均展现出更高的效率、更优的模型质量及更强的鲁棒性。该解决方案有望显著提升影视制作的整体效能与三维数字资产质量,为未来的虚拟摄制、后期视效、虚拟现实电影等提供高效、可靠的技术路径。

关键词

Multi⁃SLAM;3DGS;影视三维数字资产;三维数字重建

1

引言

在影视制作中,三维内容的重建与还原贯穿于虚拟勘景(Virtual Scouting)、视觉预演(PreViz)、虚拟摄制、后期视效及虚拟现实/增强现实/混合现实(VR/AR/MR)等新兴内容生产过程中,是不可或缺的核心环节。然而,传统人工建模或摄影测量方法普遍存在建模周期长、人工干预多、重建效果不理想等问题,一直制约着三维内容生产的发展。

3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术的出现为影视三维数字资产重建提供了全新路径,其不仅能快速实现三维数字资产重建,其过程基本无需人工干预,显著缩短制作周期。同时,得益于其高效的渲染机制,该技术可在更为普通的计算机上实现实时、逼真的三维内容渲染,为不同类型的影视制作带来全新可能。然而,随着行业对3DGS资产数量与质量要求的不断提升,基于纯视觉的重建方法逐渐暴露出明显局限:扫描过程耗时长、效率低;重建阶段易出现图像位姿丢失、弱纹理区域模型破面、透明或高反光物体几何失真等问题。针对上述挑战,借助多源传感融合-即时定位与地图构建(Multi⁃SLAM)技术通过融合视觉、激光雷达(LiDAR)与惯性测量单元(Inertial Measurement Unit, IMU)数据,可有效提升3DGS资产重建的质量和鲁棒性[1,2] 。

本文系统性阐述Multi⁃SLAM+3DGS结合的技术路径,深入分析该技术路径在影视行业中具备通用性的可能,并通过测试对比,展示端到端流程及应用环节,探讨在影视虚拟摄制时代应用这一系统解决行业痛点、提升效率的技术路径。本文提出的Multi⁃SLAM+3DGS一体化方案,不仅能显著提升重建效率与模型质量,更能确保厘米级几何精度与1∶1真实尺度还原,从而实现虚拟环境与物理世界的精准同步,以更高的制作效率为影视制作提供高精度实景三维数字资产。

2

研究背景

2.1 三维重建技术的发展

三维重建(3D Reconstruction)是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,目前主要有摄影测量、神经辐射场(NeRF)、3DGS。

传统摄影测量(Photogrammetry)方法通过一定数量照片计算生成网格(Mesh)模型,其技术历经多年发展已经十分成熟,但其复杂的制作流程和较弱的真实感成为其在影视创作中的瓶颈。近年来,神经辐射场(Neural Radiance Fields, NeRF)[3]通过神经网络编码场景为三维场景重建创造了新的可能,但高昂的重建成本、非实时渲染速度等局限性,限制了其在影视制作中的应用。3DGS是一种显式三维重建与渲染技术[4],能直接从多视角图像生成高保真、可实时渲染的三维场景。相比传统摄影测量方法,3DGS可提供更强的真实感、更高渲染效率;同时区别于NeRF的隐式表达,3DGS采用显式几何表达,训练后场景固化,渲染时无需查询神经网络,显著提升速度与实用性。不同的三维重建技术具备各自的特点与优劣,如表1所示。

表1 三维重建方法优劣分析

打开网易新闻 查看精彩图片

2.2 传统三维数字资产采集、重建与使用的痛点

影视行业中三维数字资产采集、重建与使用面临诸多挑战,一些复杂场景从采集到重建完成往往耗时数天甚至数周,其主要原因是方案的鲁棒性不足,在一些不利条件下易导致模型破损失真,进而需要更多人力和时间成本进行修复。另外,传统方法的渲染效率低,在渲染性能有限的情况下难以直接满足虚拟摄制、视效及VR等应用对真实感和实时性的要求。本文提出的Multi⁃SLAM+3DGS技术路径,正是为解决和改善这些痛点而设计。

3

Multi⁃SLAM+3DGS技术流程及特点

Multi⁃SLAM+3DGS技术流程中(图1),不同传感设备具备相应的特点,所获数据在前后期分别发挥不同的作用,互补结合后发挥更大效能。

打开网易新闻 查看精彩图片

图1 Multi⁃SLAM+3DGS技术流程

3.1 多源传感融合技术

Multi⁃SLAM+3DGS是一种一体化空间三维重建系统,其核心在于通过多源传感融合技术实现多源传感空间感知,从而构建高鲁棒性、高精度的即时定位与地图构建(SLAM)前期扫描,为后期3DGS提供更多精准的有效信息,如相机位姿(Pose)、稀疏或稠密点云初始化(Initialization)以及绝对尺度约束(Scale Constraint)等。不同类型传感器在采集和重建中能够形成多维感知互补。

3.1.1 视觉传感技术特点

视觉传感器的两项主要功能为获取设备位姿及场景纹理色彩细节。视觉传感器在弱光、高反差等恶劣光照环境下性能显著下降[5]。纯视觉传感器方案中在例如白墙、玻璃等缺少特征点或者水面、播放画面的屏幕等动态变化环境中,将无法有效定位并识别几何结构,进而影响三维重建。此外,大部分纯视觉方案还无法精确实现1∶1尺度的测量。

3.1.2 激光雷达传感技术特点

激光雷达能提供准确的三维结构信息与绝对尺度约束,其具备全天候抗干扰能力,在弱纹理(如白墙)和暗光等极端环境下仍能稳定输出空间结构信息,且可提供1∶1的真实尺度测量,对纯视觉方案形成原理与算法上的有效补充。激光雷达直接提供的准确稠密点云能为3DGS重建带来更快的训练速度与更佳的重建精度。

3.1.3 IMU传感技术特点

IMU由加速度计与陀螺仪组成,可在上百赫兹频率输出加速度、角速度信息,在快速运动、剧烈转向及短时遮挡期间仍可连续跟踪设备运动,有效防止在快速移动或震动扫描时出现跟踪丢失,从而提升数据采集过程中的鲁棒性与数据准确性。IMU还可发挥其自身刷新快、抗干扰能力强的特点,辅助抑制累积误差,即便在大场景中也能确保场景重建的空间一致性[6]。

3.1.4 多维度感知互补

视觉传感器、激光雷达和IMU的多维度感知互补,共同构建完整的环境感知,分类如下:

(1)位姿:3DGS的重建质量高度依赖于精准的相机位姿[7]。视觉系统通过特征跟踪算法进行位姿估计,但在低光、强反射、纹理缺失及动态物体等条件中极易失效;IMU凭借其高刷新率及不受外部光照视觉条件影响的特性,能稳定有效地获取相对运动信息,但其存在累积误差的问题;而激光雷达则能在视觉失效时,通过几何匹配继续提供稳定的位姿约束[5]。三者协同互补,共同完成高准确度和强鲁棒性的位姿获取。

(2)几何结构:基于设备位姿,融合激光雷达的精准测距数据与视觉图像特征,可获取高精度的深度及点云信息,从而构建出物体或场景的几何结构。

(3)尺度测量:普通单目视觉重建难以准确获取真实尺度,而Multi⁃SLAM方案激光雷达提供真实准确的深度信息,IMU可辅助估计尺度与运动,从而确保重建的几何量具有准确的物理意义。若再配合GPS⁃RTK传感器,还可确保重建场景朝向及经纬度位置的准确性。

(4)纹理和色彩:激光雷达和IMU均无法获取有效纹理和色彩信息,因此需通过视觉传感器实现这一功能,通常使用相机在不同位置拍摄获取。

根据上述感知维度与不同传感器的对应关系可见,需多传感器融合使用以实现多维度感知互补,弥补单一传感器的弱点,实现更强的系统鲁棒性,从而提升采集和重建的效率和质量[6,8,9]。

3.2 前期采集关键技术及流程

3.2.1 多源传感融合定位

在前期采集中定位技术尤为重要, SLAM常用于机器人、无人机、自动驾驶等领域,其核心目标是让采集设备在未知环境中,同时估计自身位置和构建外部空间地图。Multi⁃SLAM的多源传感数据融合的主要作用为定位,视觉、激光雷达、IMU通过复杂的定位融合算法,互补三者的优势特点,在扫描过程中实时获取准确的定位信息。其不仅能显示点云及轨迹,为采集扫描作业提供便利,还能为后续3DGS重建提供准确的定位信息。

3.2.2 设备集成与时间、位姿同步的重要性

在Multi⁃SLAM技术中,视觉、激光雷达、IMU多源传感器通过硬件集成连接以确保时空一致性,在设备加工制造及校准时,会对不同传感器的相对位置和姿态进行严格标定,通过高精度硬件确保时间微秒级同步,即可在设备运动时确保不同传感器位姿的精准同步,以确保定位精度和地图构建质量。若各传感器分散在不同设备,未做严格外参标定和时间同步,则会在重建时产生计算误差进而影响质量,严重时甚至会导致重建失败。因此Multi⁃SLAM技术中多传感器的时空一致性是准确重建的有效保障,可避免在后期重建中进行不必要的数据修正,从而大幅提升重建的效率和质量。

3.2.3 前期采集技术流程

在前期采集过程中,需在完成视觉、激光雷达、IMU三种类型传感器的微秒级同步后,将不同采集频率的视觉图像、激光雷达、IMU数据进行多源传感融合,并通过几何一致性、视觉一致性等约束条件优化位姿。在不同情况下,不同类型传感器获取的数据会根据其自身置信度开展准确且稳定的位姿信息获取,并实时生成稠密点云以供现场实时预览。视觉、激光雷达、IMU的原始信息以及位姿轨迹信息和稠密点云都会被保存,以供后期进行高鲁棒性与高精度重建。图2为前期采集技术流程图。

打开网易新闻 查看精彩图片

图2 前期采集技术流程

3.3 后期重建关键技术及流程

在Multi⁃SLAM+3DGS制作流程中,后期算法及软件尤为重要。一套融合定位建图、数据清洗、重建解算的后期重建软件,能显著提升三维数字资产质量与生产效率。除此之外,其易用性与鲁棒性则是降低使用门槛、确保产出稳定的关键。

3.3.1 多源传感融合定位与闭环优化

3DGS的重建结果高度依赖准确的图像位姿,过大的偏差可能会导致几何结构塌陷。在前期扫描过程中,Multi⁃SLAM由于机载处理器性能有限,其位姿数据的准确性仍有优化空间,后期会通过相应算法,结合多传感器数据继续修正,以获取更精准的位姿信息,确保多源传感融合的全局一致性。Multi⁃SLAM系统还可通过回环检测(Loop Closure)功能,在设备回到起点或有视角重叠时自动校正累积定位误差,从而生成更加一致、准确的地图。

3.3.2 多源传感融合几何结构与纹理色彩

多源传感融合是生成优质几何结构与纹理色彩的关键技术。激光雷达采集环境的三维点云信息,作为几何结构的核心数据源,相机则捕捉场景的色彩纹理信息。为充分融合两者优势,需通过高精度标定算法统一两传感器的时空坐标系,建立三维点云与二维像素的可靠映射;并依据多视角一致性原则对几何结构与色彩纹理信息实施协同优化,确保融合结果在精度与一致性上达到更高水平。

3.3.3 动态物体自动检测与剔除算法

利用深度学习(DL)的语义识别技术,结合时序一致性分析,系统能从采集画面中识别移动的人员、车辆等,生成遮罩并将其剔除,从而在3DGS重建中排除干扰,输出纯净的静态场景模型,有效避免动态物体在场景中留下虚影[10]。

3.3.4 后期重建技术流程

使用前期采集时记录图像、激光雷达、IMU的原始信息进行高精度的设备位姿计算并生成全局点云,根据点云信息和带有准确位姿信息的视觉信息进行点云着色获得彩色点云,完成 3D 高斯模型初始化[11,12],再借助可微渲染(Differentiable Rendering)技术迭代优化3D高斯模型,从而得到高保真实景三维模型。图3为后期重建技术流程图。

打开网易新闻 查看精彩图片

图3 后期重建技术流程

3.4 Multi⁃SLAM+3DGS技术特点

基于Multi⁃SLAM+3DGS的端到端自动化流程不仅大幅缩短了影视制作周期,也让三维内容的生成与应用更加高效便捷。

(1)采集和重建速度更快

大部分集成化Multi⁃SLAM+3DGS采用双目全景相机保证全方位快速采集,部分方案配合非全景相机保证细节采集,激光雷达获取准确的点云信息,配合IMU获取稳定姿态,丰富多维度的数据采集减少了后期相机位姿追踪和点云生成等多个步骤,从而节约后期重建成本并提高重建效率。

(2)操作更简易

Multi⁃SLAM使3DGS重建流程从专业化转变为普适化。传统纯视觉3DGS重建流程容错率低,用户需掌握摄影测量、3DGS重建等专业知识,通常需要专业培训或长时间试错。而目前Multi⁃SLAM+3DGS方案由于其多源传感融合技术的高容错性等特点,重建流程相对自动化,显著提升了3DGS资产重建在影视行业中普及推广的可能性。

(3)鲁棒性更高、可复现性更强

Multi⁃SLAM+3DGS通过多源传感融合,为3DGS重建提供多维度约束与保障,避免纯视觉3DGS技术在弱纹理、重复纹理、弱光、高反光、镜面、动态物体等环境中容易发生匹配失败或几何漂移而导致模型断裂、重影或塌陷等问题。

Multi⁃SLAM+3DGS的可复现性更强。纯视觉3DGS的重建结果高度依赖专业经验,不同的拍摄路径与特征提取参数会导致结果不一致甚至失败。Multi⁃SLAM+3DGS方案不仅提高了扫描成功率,也使结果在不同拍摄者、不同设备间具备良好的复现效果,可满足影视制作的批量化资产生成需求。

(4)三维数字资产数据质量更高

Multi⁃SLAM 技术不仅显著提升了几何精度,更直接优化了模型的空间一致性与数据洁净度。借助激光雷达提供的精确深度信息、点云与几何约束,算法能构建出准确、连续的场景几何结构,有效解决了纯视觉方案因几何约束不足而产生的漂浮伪影[13](Floating Artifacts)问题,大幅降低了后期人工清理成本。同时,通过动态物体自动检测与剔除算法,系统可自动移除行人、车辆等干扰目标,生成高洁净度资产。此外,融合激光雷达与 IMU 获取的绝对尺度信息,实现了场景的 1∶1 精准还原,以便后期视效与虚拟摄制等工作的开展。

4

Multi⁃SLAM+3DGS重建方案与常规3DGS对比测试

为对比Multi⁃SLAM+3DGS重建方案与常规纯视觉3DGS重建方案,本测试设计了室内与室外两组测试环境,对比索尼微型单反相机α7R IV、大疆全景相机Osmo 360、其域创新灵视P1和灵光L2 Pro共4种设备使用方案下3DGS重建的表现。

4.1 测试实验设计

目前,3DGS在小型静物重建方面已相对成熟,若排除高反光、透明或弱纹理等极端情况,其重建效果通常较好。然而,面对大尺度或几何结构复杂的场景,纯视觉方案仍面临诸多挑战。为此,本文设计了室内与室外2个场景,旨在对比不同空间尺度下的建模效果。

(1)室内场景

选取面积约为15 m2的卧室作为室内测试场景。其中,白墙与关闭的电视旨在测试不同方案在弱纹理及反光表面的表现;窗户用于评估对透明物体的重建效果;而显示画面的电脑屏幕等物件,则用于测试算法对细节纹理的还原能力。

(2)室外场景

选取湖边区域外景作为室外测试场景。场景中复杂的环境特征极具挑战性,植被存在镂空结构与风动干扰;湖面兼具镜面反射与流动性;建筑物的大面积玻璃窗则包含透明与反光属性。此外,随机出现的行人能有效测试算法对动态移动物体的剔除能力。测试还涵盖建筑物内小型室内区域,以验证室内外空间连接过渡的重建效果。室外区域整体面积约10,000 m2,与室外连接的室内部分约100 m2。

4.2 设备参数和采集方式

前期采集设备的具体参数如表2所示,由于全景相机、灵视P1及灵光L2 Pro均采用全景采集模式,三者的采集路径与作业时长基本一致,具备良好的可比性;而微型单反相机受限于其定向的采集方式,难以在路径规划和时间消耗上与其他设备保持严格一致。

表2 4种采集设备参数和采集方式

打开网易新闻 查看精彩图片

4.3 后期重建

对于常规纯视觉方案而言,后期需经历图像抽帧、特征匹配、FOV分块等复杂人工流程,期间人工操作的经验和时间也会对结果造成较大影响,本文测试对微型单反相机和全景相机的素材进行基础处理后,使用目前较好的纯视觉3DGS制作方案之一的Postshot进行三维重建,在测试中使用默认参数。

灵视P1和灵光L2 Pro采集素材使用Lixel CyberColor进行三维重建,所有细节参数由系统在三维重建时根据素材进行自适应调整。

4.4 测试结果

4.4.1 室内场景

室内测试结果如表3所示。微型单反相机与全景相机所生成资产在白墙、电视等区域依然出现严重的瑕疵,且空中会出现漂浮伪影,这些问题需要大量时间进行人工后期修模。Multi⁃SLAM技术得益于视觉、激光雷达和IMU多源传感融合的优势,白墙、电视机等弱纹理区域能得到较好的重建,并且重建的场景中不存在漂浮伪影。场景的细节还原度差距不明显,得益于微型单反相机拍摄精度较高,微型单反相机及灵光L2 pro+高清补拍的结果展现出更强的细节还原度,但微型单反相机纯视觉方案下存在更多的重建瑕疵。

表3 室内场景测试结果及对比①

打开网易新闻 查看精彩图片

4.4.2 室外场景

室外测试结果如表4所示,在室外场景测试中,由于数据量较大,微型单反相机和全景相机所拍摄素材,在Postshot中的相机追踪步骤已出现严重问题,最终导致场景出现严重破损,场景中存在大量的漂浮伪影。而Multi⁃SLAM方案的重建非常稳定,无论是大型建筑重建还是细节均有良好的表现。

表4 室外场景测试结果及对比①

打开网易新闻 查看精彩图片

与室外场景连接的室内空间由于照片位置追踪失败,导致无法连接室内外场景,在人工挑选并减少重建照片数量后,室内外场景连接和重建才得以完成。需要特别指出的是,纯视觉方案在某些特定角度下,会出现由于相机定位追踪出错导致严重错位重影的情况(图4)。

打开网易新闻 查看精彩图片

图4 纯视觉方案景物被错误重建的示例

4.5 测试结论

对于纯视觉3DGS重建方案而言,前期采集和后期重建都非常依赖实操经验和人工干预:前期采集的角度、位置及相机参数等因素对于重建有较大的影响;后期重建往往需要以结果为导向的调参和修模等经验,并耗费更多的人工时间。

Multi⁃SLAM借助多源传感融合的技术和算法,极大优化了3DGS资产的采集速度和重建质量,能为影视行业内容创作高效赋能。

5

Multi⁃SLAM+3DGS重建方案在影视中的应用

在影视制作中,虚拟勘景、前期预演、电影虚拟摄制、电影后期视效乃至VR电影均需高质量三维数字资产支撑。Multi⁃SLAM+3DGS方案通过硬件与软件一体化设计,解决了传统摄影测量和视觉重建中存在的几何结构破损、重建失败、还原度低等诸多应用问题,实现从物理世界到三维数字资产的链路全自动化闭环,快速生成具备真实光照、纹理、几何结构和尺度信息的3DGS资产。其高效率、高保真、低人工依赖的特性,使其成为摄影测量与人工修模流程的替代技术,为影视行业带来了三维数字资产生产方式的巨大变革。

5.1 影视虚拟摄制中的应用

影视虚拟摄制包括虚拟勘景、虚拟预演、现场实时交互预演和LED虚拟摄制等,其共同特点是制作大多在虚幻引擎(UE)、Unity等三维实时引擎中完成。

通过Multi⁃SLAM+3DGS的采集与重建流程所得的三维数字资产可直接应用于影视虚拟摄制的各个流程中,通过插件即可将3DGS资产导入UE,本文测试实践时所用的插件为Volinga Plugin Pro及其域创新LCC SDK。

5.1.1 虚拟勘景与前期预演

传统的照片、视频或平面图勘景难以呈现真实空间结构和1∶1尺度,而反复现场勘查耗时、费力,且往往效果不佳。Multi⁃SLAM+3DGS工作流程可1∶1精准还原空间结构。即便在大型或复杂场景中,也可借助控制点和实时动态定位(Real⁃Time Kinematic, RTK)功能实现场景拼接融合,还可对局部细节精度进行不断迭代优化,以达到更强的适用性,从而提高虚拟勘景和虚拟预演效率。

5.1.2 LED虚拟摄制与现场实时交互预演

Multi⁃SLAM+3DGS技术流程能为虚拟摄制和现场实时交互预演快速高效地提供可直接使用的3DGS资产,把以往重建的时间从数天甚至数周压缩到数小时。此外,凭借3DGS对场景光照的真实还原,使用更少的渲染资源即可还原出更真实的背景。

5.2 后期视效制作中的应用

Multi⁃SLAM与3DGS技术的结合实现了高保真三维数字资产的快速生成。在后期视效制作中,其生成的三维数字资产可直接高效地应用于中后景,配合精细化扫描亦可满足中前景的画质需求。相较于传统视觉特效流程,该技术免除了点云清理、修补孔洞、拓扑重构、材质贴图及布光渲染等繁琐环节,有效缩短了制作周期。然而,3DGS的几何结构、色彩、光照均直接呈现于高斯椭球的属性中,且并没有材质、贴图的概念,而是通过球谐函数等属性表示相关特性,因此目前对3DGS资产的编辑自由度依然十分受限。综上所述,3DGS技术较为适合实景背景替换的拍摄,例如补拍、重拍及异地拍摄等,但对于虚构场景或改动较大的场景,目前尚无明显优势。

5.3 VR电影创制和播映中的应用

2025年3月,《国家电影局关于促进虚拟现实电影有序发展的通知》发布,大力支持VR电影产业发展,而VR电影的创制需要大量的三维数字资产。基于Multi⁃SLAM+3DGS技术方案生产三维数字资产,不仅可大幅缩短生产周期和生产成本,在最终呈现效果上也更逼真。

尽管 3DGS技术目前已在桌面端平面显示上实现了流畅的实时渲染,但在VR头显设备上仍面临挑战。由于 VR 采用特殊渲染管线,计算负载显著增加,导致在处理大规模或复杂场景时,当前的算法效率与硬件性能尚难满足沉浸式体验所需的高帧率与低延迟标准[14]。因此,未来仍需持续深耕针对VR端的算法优化,以解决这一性能瓶颈。

5.4 3DGS应用中存在的问题

5.4.1 可编辑性瓶颈

可编辑性弱是目前 3DGS技术的显著瓶颈。尽管现有工具已支持对3D高斯椭球的选择、删除、复制,以及包括平移、旋转、缩放在内的基础几何变换,并能进行一定的色彩调整(图5)。由于3DGS资产的编辑组成方式是离散的高斯椭球,因此对象的选择大多依靠人工完成,相关技术仍在发展过程中[15]。此外,相较于传统网格资产在材质、纹理贴图及网格拓扑结构等方面成熟且丰富的编辑能力,3DGS在编辑自由度上仍存在较大差距。

打开网易新闻 查看精彩图片

图5 对3DGS资产进行移动(a)、旋转(b)、缩小(c)、放大(d)及调色(e)等编辑

5.4.2 重光照质量差距

目前,3DGS的重光照技术主要依赖逆向渲染思路,即从高斯场中估算出法线、粗糙度等物理属性,或引入 Mesh 代理几何体来辅助光照计算。这使在虚拟预演等应用中快速调整光源方向与颜色成为可能。然而,该技术尚处于起步阶段,核心瓶颈在于去光照(De⁃lighting)的彻底性,原始拍摄时的环境阴影往往难以完全剥离,导致重光照时出现双重阴影现象,且阴影的投射质量仍难以达到影视级标准。图6为3DGS虚拟场景重光照效果。

打开网易新闻 查看精彩图片

图6 通过3DGS虚拟场景布光

6

总结与展望

本文系统性地研究并验证了基于Multi⁃SLAM与3DGS的影视三维数字资产重建方案,研究结果表明,Multi⁃SLAM技术通过融合视觉、激光雷达与IMU数据并结合后期技术优化,能有效弥补以往三维重建方法的不足,提高重建的速度、质量与鲁棒性,减少时间和人力成本的消耗,实现从物理空间到高质量三维数字资产的“端到端”快速转化,高效赋能影视三维数字资产的精细化和多元化。目前3DGS资产在可编辑性、重光照等方面依然需要不断改进完善,其在VR头显设备以及移动端上的渲染管线仍需优化。

随着空间智能(Spatial Intelligence)理念的兴起,人工智能(AI)正从二维图像生成迈向对三维物理世界的理解与建模。然而,当前可用于训练的空间感知与生成模型仍面临高质量三维数据严重匮乏的瓶颈。基于Multi⁃SLAM与3DGS的实景三维重建方法,不仅能高效获取高保真、具备真实尺度的三维场景,还可为构建下一代“世界模型”提供大规模、结构化的真实世界训练数据。

值得关注的是,作为3DGS技术的延伸与突破,4D高斯泼溅(4DGS)在三维空间基础上引入时间维度,可有效应对3DGS在动态场景处理上的短板,近年来取得显著进展。目前4DGS在渲染效率与可编辑性上已有明显提升,能实现动态场景的快速高保真重建,同时降低硬件运行门槛。这些新进展可与Multi⁃SLAM技术进一步融合,为影视动态资产重建、数字人实时呈现提供更高效的技术支撑,助力影视虚拟摄制提质增效。

注释、参考文献

(向下滑动阅读)

注释

① 使用Postshot的重建流程,其抽帧密度以及其截止训练步数对重建时间影响很大。在本测试中,微型单反相机和全景相机采用2 FPS的抽帧速度,使用导入Postshot后软件默认的截止训练步数。

参考文献

[1] 谭臻,牛中颜,张津浦,等.SLAM新机遇—高斯溅射技术[J].中国图象图形学报,2025,30(06):1792⁃1807.

[2] 李永昌,李玮.基于多传感器融合的三维高斯泼溅技术[J].现代电子技术,2025,48(17):93⁃97.DOI:10.16652/j.issn.1004-373x.2025.17.014.

[3] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[EB/OL].(2020⁃08⁃03)[2026⁃01⁃15]. https://arxiv.org/pdf/2003.08934.

[4] KERBL B, KOPANAS G, LEIMKÜHLER T, et al. 3D Gaussian splatting for real⁃time radiance field rendering[J]. ACM⁃Transactions on Graphic, 2023, 42(4): 1⁃14.

[5] ZHU Z, ZHANG W, HAALA N, et al. VIGS⁃SLAM: Visual Inertial Gaussian Splatting SLAM[EB/OL].(2025⁃12⁃02) [2026⁃01⁃15].https://arxiv.org/pdf/2512.02293.

[6] PAK G, KIM E. VIGS SLAM: IMU⁃based Large⁃Scale 3D Gaussian Splatting SLAM[EB/OL].(2025⁃01⁃23)[2026⁃01⁃15] . https://arxiv.org/abs/2501.13402.

[7] YAN Q, WANG Q, ZHAO K, et al. RA⁃NeRF: Robust Neural Radiance Field Reconstruction with Accurate Camera Pose Estimation under Complex Trajectories[EB/OL].(2025⁃01⁃24)[2026⁃01⁃15]. https://arxiv.org/pdf/2506.15242.

[8] HONG S, ZHENG C, SHEN Y, et al. GS⁃LIVO: Real⁃Time LiDAR, Inertial, and Visual Multi⁃sensor Fused Odometry with Gaussian Mapping[EB/OL] . (2025⁃01⁃15) [2026⁃01⁃15]. https://arxiv.org/abs/2501.08672.

[9] HONG S, HE J, ZHENG X, et al. LIV⁃GaussMap: LiDAR⁃inertial⁃visual fusion for real⁃time 3D radiance field map rendering[J]. IEEE Robotics and Automation Letters, 2024, 9(11): 9765⁃9772.

[10] 朱东林,陈淼,毛宇岩,等.三维高斯泼溅技术在场景重建中的研究现状与挑战[J].集成技术,2025,14(04):1⁃20.

[11] ZHAO H, GUAN W, LU P, et al. LVI⁃GS: Tightly⁃coupled LiDAR⁃Visual⁃Inertial SLAM using 3D Gaussian Splatting[EB/OL]. (2024⁃11⁃05) [2026⁃01⁃28]. https://arxiv.org/abs/2411.02703.

[12] ZHANG T, HUANG R, LI J, et al. Incremental Gaussian Splatting: A Real⁃Time Multi⁃Sensor SLAM Backend with LiDAR Priors[C]// Proceedings of 2025 44th Chinese Control Conference (CCC). IEEE, 2025: 4021⁃4028.

[13] WANG J, ZHOU P, LI C, et al. Low⁃Frequency First: Eliminating Floating Artifacts in 3D Gaussian Splatting [EB/OL]. (2024⁃08⁃08) [2026⁃01⁃28]. https://arxiv.org/abs/2408.04381.

[14] 国家电影局.国家电影局关于促进虚拟现实电影有序发展的通知[EB/OL].(2025⁃03⁃21)[2026⁃01⁃26].https://www.chinafilm.gov.cn/xwzx/ywxx/202503/t202 50321_888199.html.

[15] 王锋,银莹,王佳炎,等.基于高斯泼溅的轻量级重建场景分割方法[J].计算机学报,2025,48(05):1232⁃1243.

期刊导读 |《现代电影技术》2026年第3期

张海悦等:虚拟现实电影发展趋势与技术标准体系建设研究

傅凌焜等:新能源技术赋能电影产业绿色转型的路径研究——以运达集团移动储能系统为例

打开网易新闻 查看精彩图片