来源:市场资讯
(来源:GiantPandaLLM)
Complex-Valued Holographic Radiance Fields:在复值域统一3DGS与全息渲染
论文信息
标题:Complex-Valued Holographic Radiance Fields
作者:Yicheng Zhan(战弈诚)¹, Dong-Ha Shin², Seung-Hwan Baek², Kaan Akşit¹
单位:¹ University College London (UCL), ² Pohang University of Science and Technology (POSTECH)
发表:ACM Transactions on Graphics (TOG),将于 SIGGRAPH 2026 展示
项目主页:https://complightlab.com/publications/complex_valued_holographic_radiance_fields/
代码仓库:https://github.com/complight/Complex_Valued_Holographic_Radiance_Fields
DOI:https://doi.org/10.1145/3804450
前言
3D Gaussian Splatting(3DGS)自 Kerbl et al. [SIGGRAPH 2023] 提出以来,已经成为新视角合成领域的主流方法之一。然而 3DGS 本质上仍然是一个基于强度的渲染管线——它建模的是每个高斯基元的颜色(RGB)和不透明度,输出的是2D强度图像。对于计算全息(Computer-Generated Holography, CGH)这一需要同时处理光波振幅和相位信息的领域而言,3DGS 的表达能力是不够的。
与此同时,CGH 领域自身也面临着长期未解决的效率问题。传统 CGH 方法——无论是基于点源的、基于多边形的还是基于层的——都遵循一种以全息图平面为中心的计算范式:针对某一特定视角计算全息图,当视角发生变化时,场景与全息图平面之间的几何关系随之改变,先前计算得到的全息图便完全失效,必须从头重新计算或推断。
这篇来自 UCL Computational Light Laboratory 和 POSTECH 的工作,试图从根本上重新定义全息场景表示的方式:不再将全息图视为渲染管线的后处理产物,而是将复值信息(振幅与相位)直接嵌入到 3D 场景表示本身之中。由此产生的复值全息辐射场(Complex-Valued Holographic Radiance Fields)在推理阶段不再需要逐视角的全息图重算,实现了相对于已有高斯基元 CGH 方法 30x–10,000x 量级的速度提升。
问题背景:为什么已有 CGH 方法在视角变化时失效
在详细讨论本文的方法之前,有必要先厘清已有 CGH 方法所面临的核心困难。
一个全息图 本质上是一个复值二维场,它编码了从特定视角观察 3D 场景时,场景中所有物体发出(或反射)的光波在全息图平面处的叠加结果。当光从 SLM 经全息图调制后再传播到观察者眼前时,理想情况下应能重建出具有正确深度感的三维图像。
问题在于: 是针对特定的场景-全息图几何关系计算的。当相机(即观察者)在三维空间中移动时,这种几何关系发生变化,此前计算的全息图 与新视角所需的 之间并不存在简单的变换关系:
论文中 Fig. 2 直观地展示了这一点:将为某一视角计算好的全息图直接用于另一个视角进行重建时,输出的不是透视正确的场景图像,而是近似于随机噪声的结果。这意味着已有方法要实现多视角全息渲染,必须对每个新视角进行独立的全息图计算——要么通过数值优化,要么通过神经网络推断——计算代价极高。
具体而言,目前已有的高斯基元 CGH 方法包括两类代表性工作:
3DGS + U-Net [Chen et al. 2025] 采用两阶段策略:首先用预训练的强度型 3DGS 渲染出 RGBD 图像,然后通过 U-Net 推断全息图。虽然单次推断速度快(约 8–29 ms),但每个新视角都需要重新执行"3DGS 渲染 + U-Net 推断"的完整流程,且生成的全息图不具有场景几何感知能力——即振幅和相位并非从 3D 几何一致地导出,而是由网络独立估计的结果。
Gaussian Wave Splatting (GWS) [Choi et al. 2025] 将 2D Gaussian Splatting 场景通过导出闭式角谱解来生成全息图。该方法的计算复杂度与基元数量呈二次关系,推理时间在 200K 个高斯基元下需要超过 40 秒(快速模式),精确模式更是超过 13 分钟,远不能满足实时需求。
两种方法都遵循同一种计算范式:全息图在相机平面处计算,场景几何本身并不携带相位信息。本文将这种范式称为欧拉范式(Eulerian paradigm)——全息图平面的坐标固定不动,复值场随视角变化而在每个空间坐标处被重新计算。
方法概述:拉格朗日范式下的复值场景表示
本文提出的方法在概念层面上做了一个根本性的转换:从欧拉范式转向拉格朗日范式(Lagrangian paradigm)。
在拉格朗日范式下,振幅和相位不再是全息图平面上的计算变量,而是作为 3D 场景中每个高斯基元的内禀属性存在。视角改变时,这些属性本身不变,但通过投影和波传播,在观察平面处自然地产生与视角一致的干涉和衍射效应。
这一思路的物理合理性在于:在真实世界中,一个散射体发出的电磁波在源点处的相位偏移是由材料和几何决定的,不随远处观察者的位置而改变。观察者看到的相位关系随视角而变,但这种变化完全由传播和叠加过程决定,无需在源头重新设定。
下面逐模块展开。
复值 3D 高斯基元的参数化
回顾标准 3DGS,每个高斯基元 的参数集为 ,分别表示颜色、中心位置、旋转、缩放和不透明度。其空间形状由协方差矩阵 定义的高斯函数决定,在渲染时通过可微分的 splatting 过程投影到2D平面,通过 alpha-blending 合成最终像素颜色。
本文对这一参数化做了关键扩展:
新增的两个参数是:
**内禀相位 **:表示该高斯在红、绿、蓝三个波长通道上的固有相位值。注意这里的 不对应传感器处测量到的绝对光学相位,也不随观察者位置变化——它是一个学习得到的内禀参考相位,刻画该高斯在场景拉格朗日坐标系中的局部波发射特性。波数项被隐式地包含在 中,代表了包括波长依赖性在内的累积相位。
**深度平面分配概率 **:控制该高斯对 个离散深度平面的贡献分配。每个元素取值在 区间内。
在这一新的参数化下,原本的颜色参数 被重新解释为波振幅(electromagnetic field amplitude),而非可见光颜色。每个高斯投影到 2D 平面后的复值场为:
其中 是经由相机变换矩阵 和投影雅可比 作用后的 2D 高斯投影。
值得注意的一个设计细节是深度平面分配的处理。在多平面情况下,每个高斯需要被分配到 个深度平面中的某一个。作者使用 argmax + one-hot 编码实现硬分配(前向传播),然后通过 Straight-Through Estimator(STE)在反向传播时用 softmax(温度 )近似 argmax 的梯度:
STE 在量化神经网络中广泛使用,但在神经渲染管线中并不常见。本文将其引入以解决离散分配操作的梯度传播问题。文中也坦诚指出,平面分配概率是一个计算层面的隐变量(computational latent variable),而非物理精确的深度标签——其跨视角的一致性是通过训练视角分布隐式学习的,而非由物理模型保证的。
层构建与多平面渲染
场景体积 被沿光轴方向等间距地划分为 个平行深度平面 ,平面间距为 。这些平面的中心位于距相机平面传播距离 处,总深度范围关于 对称分布。每个深度平面在物理上以 SLM 的分辨率进行采样。
对于每个深度平面 ,在其上累积所有被分配到该平面的高斯基元的复值贡献。具体地,平面 上的最终复值场定义为:
这个公式有几个值得注意的地方。首先, 的引入确保每个复值 3D 高斯仅对其被分配到的平面产生贡献。其次,不透明度 在这里不再控制颜色混合,而是调制发射的复值波前的振幅——它表征的是电磁场强度而非颜色权重。透射率乘积 则在同一深度平面内模拟前方高斯对后方高斯的遮挡衰减。
与强度型方法中不加区分地在所有元素间混合 RGB 颜色不同,本方法创建的是平面特异的可见性:复数(同时包含振幅和相位信息)仅在被分配到同一深度平面的高斯之间进行混合。
前向记录(Forward Recording)
一旦各深度平面 上的复值场被填充完毕,下一步是将它们传播到全息图平面 。作者将此过程命名为前向记录(Forward Recording)。
对于每个深度平面 (一个 的复值采样网格),通过带限角谱法(Band-limited Angular Spectrum Method, ASM)计算其到全息图平面 的传播:
其中 是深度平面 与全息图平面 之间的距离, 是带限 ASM 传递函数:
最终的复值 3D 全息图通过对所有深度平面的传播贡献求和获得:
由于每个平面是一个 2D 光栅,传播的计算代价与层数 线性相关,并由尺寸为 的 FFT 主导。
逆向传播(Inverse Propagation)与监督
获得全息图 后,将其反向传播回各深度平面以获得重建的复值场,再取其强度 作为该深度平面的重建图像。
训练监督基于焦点栈强度图像——这些图像由捕获的或合成的多视角数据通过多平面生成管线渲染而来,作为 ground truth 观测。最终的训练损失由重建损失 和 SSIM 损失 组成:
包含三项(来自 Kavakli et al. [2023a]):全局 MSE、基于深度 mask 的局部 MSE、以及自相关项。 的权重为 。
一个重要的设计选择是:无论是复值全息图值还是平面分配概率,都没有直接的 ground truth 监督。这两个变量完全通过焦点栈强度上的重建损失隐式学习。
场景几何感知的振幅与相位表示
这是本文在概念上最核心的贡献,也是其区别于所有先前 CGH 方法的关键所在。
在已有 CGH 方法中,振幅和相位是全息图平面上的计算变量——它们在强度确定之后被施加在全息图平面上。当场景-全息图几何关系改变时,这些变量必须重新估计。神经网络方法虽然能快速重新估计,但本质上是生成了一组新的、与之前无关的数据驱动解,缺乏跨视角的物理一致性和可解释性。
本文的做法恰好相反: 作为每个高斯基元的固有属性,在不同视角下保持不变。对于两个不同视角(对应投影矩阵 和 ),同一高斯 的复值贡献分别为:
投影形状因视角而异,但内禀相位 保持一致。因此,场景元素之间的相位差异在不同视角下保持不变,干涉和衍射效应的变化完全由传播过程(Forward Recording 中的 ASM 传播)驱动,与真实物理行为一致。
作者称这一转变为从将振幅和相位视为全息图平面上的计算变量,到将其建模为 3D 场景本身的内禀且有意义的属性的范式迁移(paradigm shift)。
计算复杂度与 CUDA 实现
已有的保持物理精度的基元式 CGH 方法(如 GWS 或基于多边形的方法)在计算全息图时,需要对每个基元在整个全息图平面上进行逐频率的波前叠加:
其计算复杂度为 ——每增加一个基元,就多一次全分辨率 FFT。即使忽略遮挡(令 ),仍然需要 。
本文的方法将计算分解为两个 GPU 友好的阶段:
Tile-based 复值光栅化:扩展 3DGS 的 16×16 tile 结构以支持复值场累积。每个线程块协作将高斯数据加载到共享内存,各线程处理各自像素,使用快速三角函数运算累积复值场贡献。多平面渲染通过 kernel 内的平面特异过滤实现,跳过分配概率低的高斯以减少线程发散。光栅化代价为 。
FFT-based 层传播:将所有高斯收集到 个深度平面上后,通过 2D FFT 将各平面传播到全息图平面。传播代价为 ,其中 ,与基元数量完全无关。由于 不随基元数增长,且 (基元数庞大时),方法在渲染复杂度上具有本质性优势。
反向传播同样维持 tile-based 结构,以 back-to-front 的顺序遍历高斯(复用前向传播的排序数组)。前向时仅存储每像素的最终累积不透明度,反向时通过逐高斯除法恢复中间不透明度值,从而在保持常数级内存开销的同时实现精确梯度计算。
补充材料中的 profiling 分析显示(Fig. 3),50 步平均下,复值 splatting + 前向记录阶段耗时 10.11 ms,其中 tile-based splatting 占 5.18 ms(51.2%),FFT 运算占 1.44 ms(14.3%)。逆向传播阶段耗时 9.00 ms,FFT 复数变换占 4.43 ms(49.2%)。整个管线总耗时约 19.11 ms/step。
实验评估
数据集与基线
评估在三个标准数据集上进行:NeRF Synthetic [Mildenhall et al. 2021]、LLFF [Mildenhall et al. 2019]、Mip-NeRF 360 [Barron et al. 2022]。
基线主要为 3DGS + U-Net [Chen et al. 2025],设置两种评估模式:
**Image Quality Ground Truth (GT)**:每个视角都重新计算全息图,代表可达到的图像质量上界。
**Viewpoint Relationship Variation (Vary)**:不重新计算全息图,直接使用原视角的全息图在新视角下重建,用于评估方法对视角变化的鲁棒性。
GWS [Choi et al. 2025] 的源码未公开,文中使用了作者自行复现的版本,但复现结果的图像质量和散焦模糊特性与官方实现存在差异,因此 GWS 主要作为速度对比的参考。
推理速度
在 800×800 分辨率下:
方法
高斯数量
推理时间
本文方法
200K
10 ms
本文方法
5M
69 ms
3DGS + U-Net
200K
8 ms
3DGS + U-Net
5M
29 ms
GWS (Fast)
15K
> 3 s
GWS (Fast)
200K
> 40 s
GWS (Fast)
5M
> 15 min
GWS (Exact)
15K
> 1 min
GWS (Exact)
200K
> 13 min
GWS (Exact)
5M
> 5 hrs
相较 GWS,本文方法实现 30x–10,000x 的速度提升。3DGS + U-Net 的单帧推理确实更快,但它需要每个新视角都重跑一次(3DGS 渲染 + U-Net 推断),并且生成的全息图不具有场景几何感知能力。
可扩展性方面(Fig. 5),渲染时间在不同分辨率下由于 tile-based 光栅化而保持相对恒定;内存使用和渲染时间均与深度平面数和高斯基元数线性相关。
图像质量
NeRF Synthetic(800×800):本文方法相对 GT 基线的 PSNR 差距为 2.8 dB,SSIM 差距 0.05。而 3DGS + U-Net (Vary) 在不重算的情况下 PSNR 暴跌 21.5 dB,SSIM 下降超过 0.74——这清楚地说明了欧拉范式在视角变化时的脆弱性。本文方法相对 Vary 设置则有 18.7 dB 的 PSNR 优势。
LLFF(960×640):PSNR 差距进一步缩小至 1.9 dB,SSIM 差距 0.11。在深度内容稳定的区域(尤其是背景),本文方法的图像质量保持良好。但在包含近距离物体且运动视差显著的前景区域(如前景家具、近距离结构元素),开始出现相位不一致导致的伪影。
Mip-NeRF 360(960×640):性能退化明显——相对 GT 基线有 5.7 dB PSNR 差距和 0.42 SSIM 下降。最严重的质量损失出现在远处的背景区域,这些区域在大幅视角变化下经历显著的运动。
复场不连续性的深入分析
论文 Sec. 6.3 对上述性能退化提供了严谨的数学解释,这也是本文技术讨论中颇有价值的部分。
在强度型辐射场中,外观变化通常遵循光滑、低频的模式,在视角之间可以有效插值。但在复值域中,运动视差引入了一个本质困难:不同深度的物体在相机平移时产生不同幅度的视差位移:
这些位移直接转化为相位差异:
当相邻像素对应深度差异极大的物体时(),空间相位梯度变得极为陡峭:
由于相位在 边界处发生缠绕(wrapping),大的空间相位梯度会导致相邻像素之间相差多个周期,产生强度插值不存在的歧义性。这解释了为什么 NeRF Synthetic(受控场景、深度变化有限)上表现良好,而 Mip-NeRF 360(野外场景、极大深度跨度)上显著退化。
这也是作者论文诚实的地方——他们不是回避这一问题,而是量化分析了其成因,并在各数据集上展示了从受控到野外场景逐步退化的规律性表现。
散焦模糊质量
Fig. 7 对比了三种 CGH 方法的散焦模糊效果。本文方法生成的散焦模糊在视觉感知上更接近基于优化方法的结果——模糊是光滑、连续的。而 3DGS + U-Net 的散焦模糊呈现出结构化的条纹效应(fringing effect),这是已有学习式 CGH 方法的常见问题。
实物验证
实验使用的全息显示原型系统包括:LASOS MCS4 激光光源(三波长:639 nm, 532 nm, 473 nm),Jasper JD7714 相位型 SLM(2400×4094 像素,3.74 μm 像素间距),以及 Point Grey GS3 无镜头图像传感器。传感器安装在精密 X 平台(Thorlabs PT1/M)上,定位精度 0.01 mm。
论文 Fig. 8–10 及补充材料 Fig. 7–15 展示了在 NeRF Synthetic、LLFF 等数据集上的大量仿真与实物捕获结果,二者保持了良好的一致性。
由于 SLM 是相位型的,本文方法生成的复值全息图(amplitude + phase)需要经过一个额外的转换步骤:通过基于传播的优化方法,将 amplitude-phase 全息图转换为 phase-only 表示。优化目标是最小化两种全息图在所有深度平面上的传播差异(包括实部和虚部)。
训练细节
优化器选用 Adan(),训练 20,000 步。各参数的学习率分别为:amplitude 和 phase 0.025,opacity 0.025,rotation 0.001,位置和平面分配概率的 base 学习率 0.01。对位置和平面分配概率使用 CosineAnnealingLR(最小值 0.00001)进行学习率衰减,其余参数学习率在训练过程中保持不变。
Densification 策略沿用 3DGS 原版设计,但频率调整为每 300 步一次,且不使用 opacity reset,改为 Rota Bulò et al. [2024] 提出的正则化方法。Split 和 Clone 操作在处理复值参数时,通过添加小的随机扰动来保持相位关系的连贯性。
全息参数配置:传播距离 2 mm,体积深度 4 mm,像素间距 3.74 μm,波长 639/532/473 nm。实验在 NVIDIA A100 80G GPU 上进行。
不同数据集采用不同的训练视角采样策略:NeRF Synthetic 在 Blender 坐标系中随机采样面向物体的相机位姿;LLFF 直接使用数据集提供的视角;Mip-NeRF 360 则采用两阶段方法——先训练一个强度型 3DGS,然后以其为参考生成运动视差更小的新训练视角,以缓解极端视差带来的复场不连续问题。
局限性
运动视差与相位不连续:如上文分析所述,大深度跨度场景中的运动视差导致严重的空间相位不连续。这是限制本方法在野外场景上表现的主要因素。作者建议未来探索分层高斯(hierarchical Gaussians)来自适应建模多尺度相位不连续。
波传播的内存与计算开销:带限 ASM 涉及多次全分辨率 FFT,尤其在高分辨率下内存消耗显著,与纯强度式 splatting 相比仍有较大差距。
相干光假设:方法假设完全相干照明。真实光源通常只是部分相干或完全非相干的,相位关联随时间和空间衰减。部分相干模型可能有助于缓解深度引起的相位伪影。
平面分配的物理可解释性:平面分配概率是一个pragmatic的计算隐变量,而非物理精确的深度标签。其跨插值新视角的一致性是隐式学习的,而非有物理模型保证。
这篇工作的核心贡献在于提出了一种将 3DGS 与全息渲染在复数域统一的场景表示方法。与先前将 CGH 视为渲染管线后处理步骤的工作不同,它将波动光学的核心变量——振幅和相位——嵌入到场景表示自身之中,使全息渲染不再依赖于逐视角的重算。
从实用角度而言,30x–10,000x 的速度提升使得实时全息显示有了新的技术路径——尽管目前带限 ASM 的开销仍然是瓶颈,但基元数量不再是制约因素。
从学术角度而言,文中对复场不连续性的数学分析值得注意。作者没有回避方法在 Mip-NeRF 360 等数据集上的不足,而是通过运动视差与相位梯度的定量关系解释了退化的物理成因,并指出这是从强度表示扩展到复值表示时固有的挑战。
另一个有趣的观察是参数效率:标准 3DGS 使用 48 参数的球谐函数(SH)来建模视角依赖的外观,而本文方法仅使用 6 个额外参数(3 amplitude + 3 phase),但实验表明这已足以保持视角依赖的反射特性。作者对此的解释是,物理上光的振幅天然由光谱分布表征,而非 SH 这样的数学构造——但这一观察的理论基础还需要后续工作进一步探讨。
论文在 Discussion 中提出了数个有前景的未来方向:利用学到的 3D 结构和相位信息实现场景重光照;扩展到瞳孔感知的全息显示以支持动态瞳孔追踪;与非相干全息相机的集成以获取真实世界的物理相位属性;以及基于物理的光谱颜色参数化。
资源汇总
资源
链接
论文 PDF
https://www.kaanaksit.com/assets/pdf/ZhanEtAl_ACMTOG_Complex_valued_holographic_radiance_fields.pdf
补充材料
https://www.kaanaksit.com/assets/pdf/ZhanEtAl_ACMTOG_Supplementary_Complex_valued_holographic_radiance_fields.pdf
项目主页
https://complightlab.com/publications/complex_valued_holographic_radiance_fields/
代码仓库
https://github.com/complight/Complex_Valued_Holographic_Radiance_Fields
DOI
https://doi.org/10.1145/3804450
热门跟贴