【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制


标题:《PPISP: Physically-Plausible Compensation and Control of Photometric Variations in Radiance Field Reconstruction》
项目:https://hyokong.github.io/worldwarp-page/
来源:NVIDIA

文章目录

摘要

相机光学特性与图像信号处理(ISP)参数随时间推移产生变化,会导致色调、亮度和对比度的差异,从而违背3D重建所基于的光度一致性假设。

多视角3D重建方法,对相机光学特性和图像信号处理(ISP)差异导致的测光不一致性高度敏感。现有缓解策略,如逐帧潜在变量仿射色彩校正 缺乏物理基础,且对新视角的泛化能力较差。我们 提出物理可信ISP(PPISP)校正模块,通过基于物理原理且可解释的变换,有效分离相机固有效应与拍摄依赖效应 。专用 PPISP 控制器基于输入视角训练,可预测新视角的ISP参数,其工作原理类似于真实相机的自动曝光和自动白平衡功能。该设计无需真实图像,即可对新视角进行真实且公平的评估。 PPISP 在标准基准测试中达到当前最佳性能,同时提供直观控制并支持元数据整合(当可用时)。

二、相关工作

三、准备工作

辐射场 重建旨在优化场景体积密度 σ ∈ R σ ∈R σ∈R 和放出场 c ∈ R 3 c∈R^3 c∈R3的参数化表示。对于原点 o ∈ R 3 o∈R^3 o∈R3、方向 d ∈ R 3 d∈R^3 d∈R3的相机光线 r ( x ) = o + x d r(x)=o+xd r(x)=o+xd,其辐射 L ( r ) L(r) L(r)可通过该表示进行渲染。

其中 T ( x ) = e x p ( − ∫ n e a r x σ ( r ( y ) ) d y T(x)=exp(-\int_{near }^{x}σ(r(y))dy T(x)=exp(−∫nearxσ(r(y))dy 表示光线沿射线的透射率。该优化过程采用已知外参和内参的单台或多台相机采集的真实图像 I I I进行监督。仅此标准公式无法考虑相机特有的成像效应

相机图像形成 是将辐射 L L L转换为最终图像的过程:

函数 F ( ⋅ ) F(·) F(⋅) 模拟了完整的图像采集过程,包括镜头畸变 (如暗角、色差)、曝光参数 (光圈、快门时间)、传感器特性 (光谱响应、噪声、增益)以及ISP操作 ,这些参数均为 Θ Θ Θ 。虽然该过程的某些环节在采集过程中保持恒定,但其他环节可能因手动调节或传感器控制器的自动调整而发生变化。

符号说明 。设 I ∈ R H × W × 3 I∈R^{H×W×3} I∈RH×W×3为RGB图像。空间位置 u = ( i , j ) u=(i,j) u=(i,j)处的颜色为 x = I i , j ∈ R 3 x=I_{i,j}∈R^3 x=Ii,j∈R3,其第 k k k个通道值为 x = x k = I i , j , k ∈ R ( k ∈ R , G , B ) x = x_k = I_{i,j,k}∈ R(k ∈ {R,G,B}) x=xk=Ii,j,k∈R(k∈R,G,B)。对通道值或颜色定义的操作在应用于图像时均视为逐元素操作。

四、主要方法

我们通过联合优化场景表征与可微分的ISP ,来补偿输入图像间的光度不一致性,该流水线近似等式(2)中定义的相机图像形成函数 F ( ⋅ ) F(·) F(⋅)。

  • 优化过程 中,该流水线同时建模camera-specific 效应time-varying效应
  • 推理阶段 (即渲染新视角时),学习到的控制器 直接从场景表征渲染的辐射 L L L 中预测时间变化参数。

ISP pipeline 由四个连续模块组成(见图2):

• 曝光偏移补偿孔径、快门时间和增益变化,

• 暗角模型模拟传感器的光学衰减,

• 色彩校正模型模拟传感器的光谱响应并进行白平衡调整,

• 相机响应函数(CRF)将传感器辐照度转换为图像颜色的非线性变换。

按照[8:Determining the camera response from images: What is knowable],前三个模块对场景辐射进行线性处理,而 CRF 则提供最终的非线性映射。图2展示了辐射重建流程的概览,并说明了各模块的功能及其作用。

1.曝光偏移

将曝光建模为(场景辐射度)+(相机曝光),即用2的指数(Base-2)的全局逐帧辐射度尺度,模拟摄影曝光值 摄影中,曝光值(EV/Stop)每增加 1 档,进光量就翻倍(乘以 2):


∆ t ∈ R ∆t ∈ R ∆t∈R 为可优化的曝光偏移量,表征到达传感器的辐射强度变化(特定于采集过程),每一帧图像估计一个此类偏移量。

2.渐晕(Vignetting)

渐晕,也叫"暗角",指的是图像(通常是照片)的边缘和四角出现亮度或饱和度下降,相比图像中心区域逐渐变暗的现象。形成原因如下:


根据Goldman[7]的研究,采用围绕可优化光学中心的平方半径多项式来建模每个通道的 径向强度衰减(radial intensity falloff):

其中 µ ∈ R 2 µ ∈R^2 µ∈R2 为光学中心, α ∈ R 3 α∈R^3 α∈R3为多项式系数, r = ∥ u − µ ∥ 2 r=∥u−µ∥^2 r=∥u−µ∥2表示像素位置 u u u到光学中心的距离。衰减因子 v ( r ) v(r) v(r)定义为:

优化 α α α 初始化为0, μ μ μ 为图像中心。该渐晕模型具有色度特性(chromatic),为每个颜色通道定义了具有不同参数值的衰减多项式。

3.颜色校正

用来模拟白平衡 (可能随帧变化)及多个相机的色域差异 (gamut differences)等效应。为区分其与曝光校正的作用,基于Finlayson等人[6]的方法, 对RG色度与强度数据,应用3×3单应性矩阵 H H H (将RGB空间转换到RGI空间 ),并确保变换后强度值的归一化处理。

受DeTone等人[4]的启发,将 色彩校正参数化为四个色度偏移量 ∆ c k ∆c_k ∆ck,基于这些参数构建 H H H (因为直接学习H比较困难且缺少约束),并应用色彩校正:

设 C ∈ R 3 × 3 C∈R^{3×3} C∈R3×3表示RGB到 RGI 的转换矩阵( 转换到色度(Chromaticity)和强度(Intensity)空间), C − 1 C^{-1} C−1为其逆矩阵。强度归一化 可定义为(重新归一化过程,确保颜色变换,不改亮度):

此处, E \mathcal{E} E 是用于数值稳定性的常数。该归一化处理使曝光与色差校正解耦。颜色变换可紧凑地遵循如下关系:

H的构建过程如下 :其利用了定义好的四组二维的源-目标色度对。

4.像机响应函数(CRF)

受Grossberg和Nayar[9]的启发,我们采用分段幂曲线(piecewise power curve)来建模非线性色度变换 。 CRF 算子 G G G具有四个学习参数:

对于每个通道,basic S-shaped 曲线由以下公式给出:

将a和b设置为与拐点处的斜率相匹配,以确保 C 1 C^1 C1连续性:

最后, CRF 图像算子G是该S曲线与伽马校正的组合:

5.逐帧的 ISP 参数控制器

曝光偏移色彩校正 仅适用于特定拍摄场景(即单一相机位姿),无法直接复用于新视角渲染。为此 引入了一种控制器,能根据渲染场景的辐射度预测这些参数 ,其工作原理类似于传统相机中的自动曝光与自动白平衡功能。


T ( ⋅ ) T(·) T(⋅)是相机专用控制器的参数化函数,设计为粗特征提取器(1×1卷积并池化至5×5 grid),随后是一个参数回归器(独立输出头的 MLP)。

场景表征优化完成后,独立对控制器进行优化 。此时,底层重建及 逐相机的ISP参数冻结,控制器预测的参数通过ISP应用,控制器本身则采用与初始阶段相同的光度学损失函数进行训练。图3展示了控制器效果的定性示例。可选的标量控制(如曝光补偿或 EXIF 偏置)可与回归器输入相组合。

6.正则化

模块的联合优化,可能导致场景辐射度与ISP参数之间的亮度和颜色歧义。为缓解此问题,我们采用Huber损失 L δ L_δ Lδ 对先前定义的参数进行正则化处理,其中 δ 表示阈值。为了区分这些参数的相机 sensors ( s ) ^{(s)} (s)和帧 frame ( f ) ^{(f)} (f),在参数符号的右上角(上标)加了小括号。

亮度。对帧间平均曝光偏移进行惩罚:

颜色 。对目标色度偏移的帧均值进行惩罚(在 R 2 R^2 R2中逐元素进行)

由于色差校正(如渐晕和 CRF 模块中所采用的)也可能导致局部色彩偏移,我们通过缩小各通道间的参数方差来实现。设 θ m , k θ_{m,k} θm,k为模块 m ∈ m∈ m∈{ v i g , c r f vig,crf vig,crf}中通道 k k k的参数,对这些参数的跨通道方差进行惩罚,该惩罚值取参数平均值。

物理可信的渐晕 。针对每个多项式,我们对中心区域进行惩罚,并软性约束 α j α_j αj 值不超过0:

此处 [ x ] + = m a x ( x , 0 ) [x]_+=max(x,0) [x]+=max(x,0)表示逐元素纠正器。整体正则化损失为:

五、实验

设置 。由于 PPISP 模块作为后处理操作符,不依赖于具体重建方法,我们将其同时集成到 3DGUTGSplat (3DGS的加速实现)中。对比基准采用BilaRF[28]和ADOP[22]中描述的后处理方法 。 实验中,我们采用其参考超参数及针对3DGUT和GSplat优化的参考实现。为增强ADOP方法的稳定性,我们将 CRF 正则化强度提升至参考值的100倍

我们联合训练重建方法 (采用默认 MCMC 配置)和后处理算子 ,共进行30k次迭代。对于 PPISP 控制器,我们冻结两者并额外训练控制器5k次迭代。

指标 。采用信噪比(PSNR)、结构相似性(SSIM)和学习感知图像块相似性(LPIPS)。由于 PSNR 等指标对全局亮度变化极为敏感,且我们的基线模型无法对新视角进行外观补偿,我们还报告了采用仿射颜色对齐后计算的指标 ,该方法基于RawNeRF[16]。我们将这种对齐后的指标标记为'-CC',但需强调的是,此类比较掩盖了不同方法间的差异,并假设可获取真实目标视图------这在实际应用中并不可行。

数据集 。Mip-NeRF 360 [2]、Tanks and Temples [14]、BilaRF [28]、HDR-NeRF [10],以及Waymo开放数据集[25]中的九组静态序列。为更清晰地展示这些方法在复杂真实场景中的差异,我们采集了一个包含四个场景的新型 PPISP 数据集。每个场景均使用三款不同相机(苹果iPhone13Pro、尼康Z7和OMSystemOM-1MarkII)拍摄,以确保场景多样性。

1.新视图合成基准

定量结果见表1,定性对比结果见图4:不仅 PSNR 方面表现突出,对多数场景而言 SSIM 和 LPIPS 指标也更胜一筹。

表1.五种基准数据集的新型视图合成结果。后处理方法包括 BilaRF[28]、ADOP[22]、无控制器 PPISP 以及 PPISP 在辐射场重建方法3DGUT[29]和3DGS[12,30]上的应用效果。-CC的指标表示经过色彩校正(仿射对齐)的版本,该版本消除了全局曝光和色彩差异的影响

PSNR 与 PSNR -CC的对比进一步凸显了我们的控制器在复现相机自动曝光和白平衡行为方面的有效性 。在大多数数据集上,该 控制器获得的指标,与仿射色彩校正后的结果相近,表明其能准确预测每帧所需的外观校正。唯一显著的差异出现在BilaRF数据集上,这可能是因为该数据集包含某些手动设置覆盖(由元数据标注),而我们的控制器未能捕捉到这些设置。

PPISP 和ADOP[22]均采用相机专用组件(暗角和 CRF),可扩展至新视角,从而在指标上优于BilaRF [28]。我们的基础图像生成模型(无控制层)通过更优的模块间职责分离和更强的约束条件,在性能上超越了两种基准模型。补充材料中详细阐述了与ADOP的直接对比。尽管基础模型仍不及完整流程,但通过控制器提供合理的逐帧参数估计,该流程持续提升新视角识别精度

消融实验。表2展示了从完整流程中移除各组件时的视图 PSNR 变化。结果表明,所有模块均对流程性能有贡献,其中曝光和暗角校正最为关键。

2.使用图像元数据

由于我们的算法框架与相机成像过程高度相似,因此能够自然整合图像元数据(如各帧的相对曝光度,当数据可用时)。我们在HDR-NeRF[10]和 PPISP 数据集上验证了这一功能,这两个数据集均采用曝光包围技术(即通过正负曝光补偿进行拍摄)并提供对应元数据。

由于ADOP风格的后处理同样会显式建模逐帧曝光偏移量,我们按照ADOP[22]提出的方案,从已知曝光值初始化这些参数。在本方法中,我们将曝光元数据与控制器 MLP 回归器的输入进行拼接,使其能够将渲染亮度与元数据映射为有效的ISP参数。

表3(PSNR 和仿射对齐 PSNR)的定量结果表明,提供校准后的曝光偏移量能显著提升新视角预测精度。此外,相较于ADOP方法,向控制器提供此类元数据还能带来额外增益,这充分证明了本方法通过元数据实现更精准新视角外观预测的能力。

3.运行性能

表4展示了我们评估的后处理方法与场景渲染的计算性能对比。 PPISP(无控件)和ADOP[22]的计算开销相近且极低 (仅占渲染的3%)。控制器因需处理输入图像而产生显著开销,但我们的处理流程仍显著快于BilaRF(26%对比36%),在 NVIDIA RTX 5090GPU上运行时表现更优。

4. ISP容量与训练及新视角

接下来,我们将探究校正模块的容量 如何影响过拟合 (训练视图与新视图 PSNR 的差异)及对新视图的泛化能力。BilaRF[28]采用的双边网格为图像操作建模提供了高度表达的机制[3],其功能远超简单的光度不一致性补偿。在BilaRF[28]中,该操作是针对每一帧独立学习的 ( BilaRF ,被用来建模极其复杂的 ISP 变换。"双边网格(Bilateral Grids)"将二维图像升维到三维空间,从而能够高效地处理那些**既依赖位置(空间)又依赖亮度(强度)**的操作,从而具备强大的建模能力 )。相比之下, PPISP 模块刻意限制容量以防止过拟合,但因此无法建模混合空间与强度效应的复杂图像操作,例如局部色调映射(localized tone-mapping)。

因此表5,研究了两种方法的混合方案。通过为每帧BilaRF[28]增加额外的双侧网格(+PC),虽然模型已具备充足容量,但对训练视图的 PSNR 并未产生显著变化。不过,这种做法略微提升了泛化能力,因为每帧校正效果能延续到新视角。而通过增加每帧双侧网格来提升模型容量,虽然增强了训练视图的 PSNR ,却因过拟合导致新视角表现明显下降。总体而言,我们的方法在容量与泛化能力之间取得了理想平衡,能有效应对未见过的视角挑战。

局限性 。PPISP 在新视角下的泛化能力表现优异(表1),但在训练视角上有时难以与基准模型匹敌(表5)。这可能部分归因于过拟合问题 ,但我们的模型也忽略了现代手机摄像头常见的局部色调映射、夜间场景中显著的镜头光晕等重要光学效应,以及类似的空间自适应效果。虽然所提出的控制器能够实现新视角的泛化,但其从渲染亮度推断曝光和色彩校正参数的能力,取决于数据中是否存在有意义的相关性。当这些相关性缺失时------例如当物理相机控制参数(如快门、光圈、ISO)被手动覆盖时------控制器必须依赖额外的元数据来预测正确值。

#pic_center =40%x80%

d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ϵ \epsilon ϵ
ϕ \phi ϕ ∏ \prod ∏ a b c \sqrt{abc} abc ∑ a b c \sum{abc} ∑abc

/ $$ E \mathcal{E} E

相关推荐
vlln2 小时前
【论文速读】递归语言模型 (Recursive Language Models): 将上下文作为环境的推理范式
人工智能·语言模型·自然语言处理
春日见2 小时前
如何避免代码冲突,拉取分支
linux·人工智能·算法·机器学习·自动驾驶
龙腾AI白云2 小时前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·数据挖掘
人工智能培训3 小时前
大模型训练数据版权与知识产权问题的解决路径
人工智能·大模型·数字化转型·大模型算法·大模型应用工程师
找了一圈尾巴3 小时前
Agent Skills 与其它技术方案的对比
大模型·大模型应用开发
无垠的广袤3 小时前
【VisionFive 2 Lite 单板计算机】边缘AI视觉应用部署:缺陷检测
linux·人工智能·python·opencv·开发板
Duang007_3 小时前
【LeetCodeHot100 超详细Agent启发版本】字母异位词分组 (Group Anagrams)
开发语言·javascript·人工智能·python
phoenix@Capricornus3 小时前
CNN中卷积输出尺寸的计算
人工智能·神经网络·cnn
创客匠人老蒋3 小时前
从数据库到智能体:教育企业如何构建自己的“数字大脑”?
大数据·人工智能·创客匠人