本文主要基于对2021年的一篇AI HDR综述文章解读,同时其中加入文章引用的各类核心方法的Pipline解读,原汁原味文章请看: 《Deep Learning for HDR Imaging: State-of-the-Art and Future Trends 2021》
目录
arduino
任务定义
任务分类
评价指标
Supervised Image HDR:
Multi-Exposure HDR
基于光流配准的
直接特征拼接的方法
关联性引导的特征匹配
基于图像翻译的对齐
静态场景多曝光融合
single-Exposure HDR
直接使用LDR学习HDR图像
生成伪LDR序列之后进行HDR重建
计算效率高的学习方法
学习神经传感器
Deep HDR imageing with other Tasks
Deep HDR + FaceSR
HDR + 降噪
HDR + Deblurring
使用新型策略的HDR
unsupervised HDR
GAN-based HDR
transfer learning-based HDR
meta learning-based HDR
attention-based HDR
Deep reinforcement-based HDR
其他输入形式:
视频HDR
深度3D全景高动态范围成像洞察
基于深度立体视觉的HDR成像
新型传感器进行深度HDR成像
神经形态相机
神经形态的相机的图像HDR
神经形态增强的HDR成像
红外热感应相机
IR HDR image reconstruction
IR image fusion
基于深度模数相机的HDR成像
HDR任务定义
我们把一个场景的最大亮度与最小亮度的跨度称作动态范围 , 而High Dynamic Range(HDR) 是指既有非常明亮的物体,也有非常黑暗的物体,亮度跨度很大. 反之即为Low Dynamic Range(LDR) 。 而HDR任务主要的目的就是将低动态范围(LDR)图像,转化为高动态(HDR)图像,土话就是让亮的地方贼亮,暗的地方贼暗,细节还贼多。
任务原因:

相机成像显示亮度范围有限,拍摄照片无法显示真实世界亮度范围,如下图真实世界亮度范围可能为0-24(实际真实世界从黑夜到太阳光的Luminance范围为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1 0 − 6 − 1 0 9 c d / m 2 10^{-6} - 10^9cd/m^2 </math>10−6−109cd/m2, 如上图,经过人眼转化之后范围依然巨大),实际拍摄的LDR图像显示的有效范围可能只有0-10(实际一般图像都是8位,灰度从0-255共计256个等级),无法真实反应真实世界的亮度范围,需要经过HDR算法处理之后,将LDR图像映射为HDR图像,还原真实世界亮度,如下如所示。
问题定义
LDR成像

x表示LDR图像, Δt表示曝光时间,E场景辐照度,CRF(camera response fucntion,成像过程)
HDR Mapping

y表示Mapping后得HDR图像,M表示Mapping function, θ mapping funciton的参数,X表示一系列不同曝光下得LDR图像xi, 常见的方法分为sing-exposure和Multi-exposure

AI HDR任务分类
传统方法:主要使用特殊的HDR摄像机来捕获HDR图像,另一种选择是使用渲染工具从虚拟环境创建HDR。特点是,贵!!!
近几年的SOTA主要都集中在DL-based HDR算法,主要是利用CNN或者GAN从LDR图像构建HDR图像,一般包括单曝光HDR,多曝光HDR。实际上,按照输入类别, 曝光数量, sensor类型, 任务类型, 学习策略, Loss设定, AI HDR算法可以分为很多不同的细分领域,如下图:


评价指标
MSE(均方误差)

PSNR(Peak Signal-to-Noise Ratio, 峰值鑫噪比):描述GT和生成HDR图像之间的差异情况,

SSIM(Structural similarity, 结构相似度)
将图像拆分为 亮度 (luminance)、对比度 (contrast) 和结构 (structure),分别比较其相似性
HDR-VDP-2,
HDR-VDP-2 [52]是HDR-VDP [53]的更新版本,被视为测量HDR图像视觉质量的有效指标
基于深度学习的评估指标
55\]、\[58\]、【59】是评估生成HDR图像感知质量的全参考方法。相比之下,\[48\]、【56】是通过量化从DNN中提取的低层和高层特征来测量重建的HDR图像质量的非参考方法。 # Supervised Image HDR: ```markdown Multi-Exposure HDR 基于光流配准的 直接特征拼接的方法 关联性引导的特征匹配 基于图像翻译的对齐 静态场景多曝光融合 single-Exposure HDR 直接使用LDR学习HDR图像 生成伪LDR序列之后进行HDR重建 计算效率高的学习方法 学习神经传感器 ``` ## Multi-Exposure HDR ### 基于光流配准的  输入高,中,低曝光的LDR图像,输入到光流算法或网络进行对齐(一般将中曝光图像作为参考帧),之后送到融合网络进行重建,如上图a。 \[9\]使用经典的**光流算法,将LDR图像对齐** ,然后输入到DNN,融合重建HDR图像。\[63\]也按照这种pipeline,为了丰富图像信息,他们的方法以伽马校正获得的LDR和HDR图像序列作为不同尺度的输入,并采用三个子网络获得相应的HDR图像。  \[64\]\[39\]认为,经典的光流算法可能会导致相当大的失调误差,**改用SoTA光流网络**(如下图),进行图像对齐。  **缺点:大规模前景运动场景下,效果比较差,很容易出现重影** ### 直接特征拼接的方法 光流算法在大规模前景运动场景下,效果比较差。因此,\[49\]提出了一个代表性框架,**包括三个编码器网络、一个合并网络和一个解码器网络,编码器将不同曝光的LDR图像编码到潜在特征空间中,然后特征拼接送入到融合网络,以学习对齐的特征。最后,解码器重建HDR图像**,如图上图b  \[66\]中采用了类似的策略,不过添加了LDR子网,用来恢复与HDR图像相对应的三个静态LDR图像。LDR图像的反馈(即LDR图像的L1 loss),即循环重建,在正向路径上增加了更多的约束,这有利于恢复HDR图像中的运动区域。  \[67\]单个编码器设计用于映射不同曝光的原始彩色滤波器阵列(CFA)数据,以学习中间LDR特征。 \[68\]还使用了三个编码器来提取不同曝光下三个LDR图像的特征。提取的特征被级联并馈送到合并网络中。这种方法的一个关键贡献是注意力掩码,旨在使网络能够以相当大的运动集中在场景中的部分,以避免解码器后的重影效果。 \[69\]认为使用单个编码器不能充分利用特征中的多尺度上下文信息,因此,**他们提出了多尺度LDR编码器,以提取不同尺度的视觉特征**。提取的特征在馈送到合并网络之前,通过残差学习在不同的尺度上融合。  **总结:图像直接编码,然后特征拼接之后进行融合,主要是特征提取方式和融合方式有略微区别。优点是简单直接,重影问题可以缓建,但是在高曝光区域生成的细节可能比较假(模型直接猜的)** ### 关联性引导的特征匹配 另外一些DL方法探索不同曝光和运动下,**LDR图像之间的关系** ,以此来解决**动态场景中HDR重建重影问题** ,最具代表性的就是**注意力机制**。 \[33\]参考了【49】pipepine。**但是在编码阶段应用注意力模块,以实现更好的特征对齐** 。特别是,注意力模块**有助于排除由单个编码器中的失调和饱和引起的无用信息** 。这是通过将高曝光和低曝光LDR图像和参考LDR帧送到注意力模块,然后获得注意图,以细化非参考LDR图像的特征图。因此,排除了未对齐和过曝的非参考LDR图像,**防止了无用的特征进入合并网络** 。   \[70\]\[61\]在编码阶段使用金字塔模块探索了LDR图像特征的对齐:【70】中的方法提出了多尺度金字塔特征对齐策略,在处理运动和视差方面更加灵活和稳健;\[61\]中的方法探索了LDR图像中像素自相似性的相互注意,还设计了一个双激励块,用于在合并阶段重新校准空间和通道上的特征。 【75】提出的方法在合并阶段而不是编码阶段使用非局部模块(self-attention),编码后的特征直接级联并馈入合并网络。  \[76\]提出的方法仅使用两个LDR图像(一个欠曝光,一个过曝光),并采用同形网络(编码器)将欠曝光图像扭曲到过曝光图像(**其实就是学一个4点的转换坐标,再进行一个warp** )。然后,在送到合并网络之前,使用注意力模块来减少未对齐的特征。   在NTIRE 2021 HDR挑战赛【60】中,ADNet \[77\]提出将LDR图像与金字塔、级联和可变形(PCD)模块对齐,并将其与空间注意力模块自适应融合。 **总结:说白了就是在原先encoder之后,添加一个注意力机制,利用注意力机制挖掘LDR与参考帧之间的关系,去掉一些无关紧要的信息之后,再进行融合重建。优点:去重影效果比较好,但是在高饱和区域生成的细节不够逼真,但是计算量比较大。** ### **基于图像翻译的对齐** 基于光流的HDR成像方法往往会**产生相当大的伪影** ,而端到端特征级联的方法**在高饱和区域生成的细节不够逼真**。 一些研究试图在参考图像的监督下使用DNN将低曝光和高曝光图像转换为参考LDR图像,如图3d所示。Rosh等人提出的方法。\[71\]提出一种代表性的方法,**首先利用图像转换网络将EV-1和EV+1的图像转化为两个类似参考帧的LDR图像,之后,将三张LDR图像送到合并网络以重建HDR图像** 。(注:分阶段学习)  \[78\]在【71】基础上,使用encoder-decoder网络结构,生成精确对齐的多曝光LDR图像,并且**端到端的训练对齐和合并** 。   ### **静态场景曝光融合** 如上图e描述的方法,在**静态场景下不需要进行配准**,主要是在不同曝光下合并LDR图像,并解决重建的伪影和纹理细节丢失问题。MEF是一种合并多曝光图像的方法,被广泛研究用于图像增强和HDR成像。 \[72\],是静态多曝光图像融合的代表性学习方法。为了实现这种融合,**DeepFuse收集了大量的多曝光图像堆栈数据集用于训练,使用无参考图像质量损失函数,减少了对GT图像的需求**  **核心是无监督的Loss设计方式**,借助SSIM(结构相似性)框架定义图片信息,包含structure (s), luminance (l) and contrast (c)  整体input的c和s表示为:   最终每个patch的图像信息为:  **最终Loss设计为衡量input图像y\^和输出图像 yf之间的相似性:**  许多其他研究\[42\]、\[43\]、\[73\]都是基于\[72\]这个baseline做一些扩展。MEF-Net\[73\]可以融合任意分辨率和曝光的静态LDR图像,它主要将输入图降低分辨率(LR)然后送到网络中进行权重图预测,将单图像超分辨率(SISR)和HDR成像结合在一起。使用引导滤波器联合上采样预测的权重图。**最终HDR图像是通过与高分辨率(HR) LDR图像的加权融合计算的** 。\[43\]MEF-GAN使用了**基于GAN的多曝光图像融合** ,由于多曝光图像的亮度随LDR图像中空间位置的变化而变化很大,因此在**生成器中采用了自注意机制** 来学习LDR图像的注意力信息。FusionDN \[42\]扩展了DeepFuse,并提出了一个**无监督** 和统一的密集连接网络,用于图像融合任务,包括LDR图像融合。给定两个LDR图像,FusionDN学习生成融合HDR图像,扩展点在于根据两张图像信息,**会赋予两个图像不同的权重**。  **潜力和挑战** > 多曝光HDR2个关键的步骤是LDR图像**对齐和融合**。 > > 使用**光流对齐** LDR图像是一种传统的方法,但是**在大前景运动场景中效果较差**。 > > 相比之下,**相关性引导的特征对齐更灵活和有效** ,因此,**SoTA方法主要探索特征的相关性** ,例如,使用注意力机制来排除未对齐的特征。然而,相关性引导的特征对齐**对过曝区域敏感,这往往会因为去除特征而导致细节的丢失。** > > 相关性引导方法有些在在编码阶段使用注意力【33】,部分在合并阶段学习相关性【75】,还需要更多的理论研究来确定最适合学习相关性的阶段。 这一研究领域仍然存在许多挑战。 > 首先,图像或特征对齐是难点。LDR图像相关性学习比较有前途,但是需要较大计算成本。 > > 其次,DNN训练依赖大量标注数据。在多曝光HDR成像中,获得用于场景捕捉的相机和设备相对昂贵。因此,未来的研究需要研究数据高效的学习,值得探索的方向是迁移学习【83】或半监督学习\[84\], \[85\]。 > > 第三,大多数SoTA方法推理延时都比较高。然而,HDR成像应用中对实时性要求比较高。因此,开发基于DL的轻量级框架以平衡性能至关重要。 ## single-Exposure HDR 多曝光HDR有局限性,在**运动场景下必须对多帧图像进行配准对齐,很容易产生伪影**,而单曝光就不需要,单曝光HDR重建的明显优势是,它可以处理标准相机捕获的图像,甚至恢复传统LDR内容的全部动态范围\[47\]。因此,单曝光HDR重建引起了研究界的关注。  ### 直接使用LDR学习HDR图像 最直接的方法是使用编码器-解码器网络结构直接从单个LDR图像中学习,如图4a所示。\[10\]是从单个LDR图像重建HDR图像的代表性方法,如下图主要包含一个decoder和encoder端到端使用单帧LDR图像来重建HDR图像,注意整个架构多了一些Skip connection,目的是在decoder中减少encoder丢失的信息。**数据构建是从大量的HDR video中提取的HDR图像,LDR图像是利用虚拟相机基于HDR图像生成的**,收集了一堆相机相应函数(CRF, z=f(E·t),z为输出图像,E为辐照量,t为曝光时间),发现sigmoid接近这些响应曲线的均值,所以最后使用sigmoid来代替相机函数。   **Loss改进** 桑托斯等人。\[47\]发现\[10\]的方法在曝光良好区域和饱和区域使用了相同的卷积核,会导致在训练期间出现模糊效果,同时会导致出现棋盘效应(checkerboard artifacts)和光晕伪影。为了解决这个问题,他们的方法**屏蔽饱和区域,从而减少这些区域的特征的贡献** ,同时,**还引入了感知损失** 。\[88\]发现,使用重建损失,例如**均方误差(MSE)损失,通常会导致模糊和语义细节的丢失** ,为了解决这些问题,**增加了感知损失和对抗损失** ,以提高感知质量。\[89\]中的方法还提出了一种新的**余弦相似性损失**,对HDR图像进行归一化,并分配HDR图像的像素值。 \[86\]利用了**多尺度自动编码器** 体系结构,旨在从LDR图像中学习不同级别的细节。\[87\](MIT\&Google)中的方法提出了一种基于DNN的方法,**学习高分辨率HDR成像的局部和全局特征** ,文章使用使用两个分支进行处理,分支1为低分辨率分支,降采样后利用local和global信息学习小图仿射变化系数A;分支2利用高清图生成灰度导图g,基于1的变换系数A加导图g,生成大图的变换系数A',然后利用A'结合输入大图合成最终的大图,整个方案**兼顾性能和效果**。   ### 生成伪LDR序列之后进行HDR重建 单曝光HDR重建很依赖高质量的训练数据。\[36\]之前提出一个很有代表性框架,使用单帧LDR生成多帧低曝和过曝LDR,(**训练数据是使用相机响应函数(CRF)从HDR图像生成假的LDR图像堆栈(低曝和过曝)**)。这种方法产生自然色调,而不会引入可见噪声或饱和区域的颜色。  \[38\]在\[36\]基础上,使用双分支网络,顺序生成三个上曝光和三个下曝光的LDR堆栈,**获得六个LDR图像**并合并以生成HDR图像(随着深度增加EV值变化也越大)。\[11\]、\[20\]也提出了类似的办法,区别是,多曝光堆栈是使用GAN生成的。另外\[40\]收集了一个数据集,按照上述做法,对一张LDR图像,通过改变曝光值(EV)生成的向上和向下曝光LDR堆栈图像。  ### 计算效率高的学习方法 上述许多方法是通过**增加网络深度或添加更多的损失可以提高HDR图像的质量,但同时也会增大计算量**。Khan等人提出了FHDR \[12\],利用feedback机制的强大能力提升合成效果,提出了基于RNN的框架(常见的CNN+RNN架构)。此方法低层特征在多次迭代中由高层特征引导,导致更好的重建效果,且参数较少(\*\*训练时候每次迭代t,会将前一次输出的FBBt-1输入到当前的FBBt,即FBBt=FBB(FBBt-1·Fin),相当于训练时候添加额外指导信息。\*\*推理时候没有迭代信息,个人感觉实际作用可能不大,鉴于RNN特性,训练时候可能还会变慢)。  \[90\]添加了额外一部来强化学习过程,该方法**首先学习生成HDR图像,然后通过校正网络再反过来生成LDR图像** 。由于训练后可以移除校正网络,因此没有额外的推理成本。  在相机成像管道中,三维查找表(3D LUTs)对于操纵照片的颜色和色调非常重要,因此\[15\]提出了学习图像自适应的3D LUTs的一个小型网络,以有效地重建高分辨率HDR图像,该方法可以在更少的计算成本下产生不错的结果(和前面\[87\]相似,**低分辨率学习权重,然后对高分辨率进行融合处理,Loss采用了triplet Loss** )。  ### 学习神经传感器 在单次曝光HDR成像流程中,**最大的挑战是正确地恢复LDR图像的饱和区域**。前述方法通过从CRF数据库生成LDR图像、直接建模反向CRF或设计高效网络来解决这个问题。然而,这些方法没有考虑传感器内部的问题。最近的方法尝试使用DNNs模拟传感器处理,这是HDR成像中一个待探索的方向。\[91\]引入了一个光学编码器来编码镜头的光学HDR信息,同时设计了一个电子解码器网络来解码光学编码信息以重建HDR图像。\[94\]中提出了类似的方法,设计了一种调制方法来学习空间光学编码信息,整个框架是一个端到端的学习方法。 \[92\]引入了一个差分神经传感器来优化每个像素的快门函数,由神经网络联合学习,建模曝光函数使传感器能够捕捉模糊的LDR图像,然后用于重建HDR图像。 **需要专门的传感器,非主流相机算法, 感兴趣可以深入了解。** ### 潜力和挑战 深度单次曝光HDR成像具有几个优点。 > 首先,单次曝光HDR成像排除了LDR图像的对齐问题,不太受鬼影影响。 > > 其次,它在应用中更加灵活,简化了数据收集。 > > 第三,计算效率更高(不一定,如果生成伪LDR,再融合,性能可能和多曝光差不多)。 这个方向存在几个挑战。 > 首先,难以估计LDR图像的饱和区域。虽然学习光学传感器\[91\]、\[92\]、\[94\]可以改善饱和像素的估计,但需要更复杂的相机设置和硬件。未来的研究可以简化硬件设置和学习框架。 > > 此外,现实中复杂的饱和像素仍然难以使用CRF数据库或\>学习CRF来处理。同时结合相机成像流程和CRF,加强对LDR图像中饱和像素的更稳健估计可能更有前途。 > > 此外,大多数方法采用像素级损失,如L1损失进行优化。虽然一些方法也在改进Loss,如添加对抗性损失和感知损失来增强感知质量,但这些损失有时会导致不太现实的结果。 # Deep HDR imageing with other Tasks ```markdown Deep HDR + SR HDR + 降噪 HDR + Deblurring ``` ## Deep HDR + SR 目标是直接从low resolution(LR) LDR image 构建 high-resolution(HR)的HDR 图像  SR与HDR成像问题类似,都是不适定问题(ill-posed problem), LR图像HR图像经过复杂的退化降低了分辨率,导致高频细节的丢失, LDR图像相比HDR图像,也是复杂变化后导致的 对比度和纹理细节的局部变化的缺失。因此,通过联合学习HDR+SR,同时在增强空间分辨率的同时恢复高频细节、对比度和信号幅度理论是可行的。方法分为两类:顺序学习(a,b)和联合学习(c,d,e) ### 顺序学习 大多数方法都顺序连接起来。然而,必须确定先后顺序。 考虑到这个关键问题,\[21\],\[108\]研究了模块不同连接顺序对HDR图像SR质量的影响。在\[108\]中,图像首先被分解成亮度分量(Y)和色度分量(UV),然后,使用了两个框架(HDR-SR和SR-HDR系统)来比较学习效果。结果表明,**先对图像Y分量进行HDR,然后仅基于Y分量进行SR**,可以获得最好的结果。 缺点:顺序学习会导致**误差的累积**\[21
联合学习
HDR与SR联合学习是SoTA方法中探索最多的方向[18],[21],[41],[109],[110]。
尽管这些方法有不同的看法,但它们有共同的特点。单曝光HDR与SR。Kim等人[21]提出了一种代表性的联合单曝光HDR和SR框架,如图6c所示。所提出的框架包括LDR图像SR、LR HDR图像重建和通过特征级联进行联合HDR SR。
[41],[110]改进了这个基线,其中一个LDR图像被分解成基础层(illumination)和细节层(reflectance)。随后,训练了两个分支提取的深度特征,最后级联以重建HR HDR图像,如图6d所示。
[18]中添加了一个新的分支,即图像重建模块,以[21]的框架为基础,使用GAN重建HR HDR图像。
HDR + 去噪
在 HDR 图像重建中,需要去除 LDR 图像中的噪声,尤其过曝光和欠曝光区域的噪声
单曝光噪声去除
在HDR图像重建中,可能会出现一些意外的噪声,这些噪声会影响HDR图像的质量。因此,许多现有的SOTA方法试图从HDR图像中去除噪声。 例如,Noise2Noise[113]是一个不需要干净数据的图像去噪框架,该方法不需要干净样本, 训练输入输出均为噪声样本,基于的思路是:Input y+n' => output y+n'',当数据量足够大时,噪声n始终是随机的,无法学习噪声映射,反而可以使模型学到干净样本y。
Gordian 等人[114]使用 RNNs 进行连拍图像去噪,在 HDR 成像中表现更好,特别是在低光条件下。 [115]提出了一个名为空间动态学习网络的HDR图像去噪和量化框架。该工作获得了 Niter2021 Single-Exposure HDR 成像挑战赛第二名。
多曝光噪声去除
Acccougalan 等人[116]提出了一个代表性的框架,用于通过动态场景中的多曝光合并来去除噪声。
类似于 HDR 和 SR[21]的联合 HDR 图像和图像去噪,该方法旨在使用两个分支的网络从欠曝光和过曝光图像中学习。 该方法[117]旨在使用 UNet 从双曝光传感器中重建干净和无噪声的 HDR 视频。 由于缺乏干净的 GT HDR 视频,模糊和噪声是手动生成的。
总结:
- 针对单曝光HDR图像重建的去噪方法很少,这可能是因为直接将SoTA去噪框架应用于HDR成像时,重建的HDR图像往往会失去细节。
- 难以对LDR图像中的真实世界噪声进行建模。
- 此外,与HDR成像和SR相似,需要研究顺序和联合学习的有效性。
HDR + Deblurring
在极端成像条件下,例如暗场景,长时间曝光经常会导致LDR图像中的模糊效果。因此,学习HDR成像通常必须考虑图像去模糊。
120\]当模糊时,可见光源和明亮的高光区域经常出现为延长的条纹。为此,提出了一个DNN框架,用于从模糊的LDR图像重建HDR图像,(Deblur的核心操作是Max pooling?)  然而,对于单次曝光HDR成像,恢复饱和区域是困难的\[91\]将单次曝光HDR重建解释为联合训练光学编码器和电子解码器。在该框架中,点由镜头的点扩散函数(PSF)参数化。在推理期间,将模糊的LDR图像馈送到网络以重建HDR图像。类似地,\[92\]引入了差分神经传感器,以优化逐像素快门函数,以端到端的方式与DNN联合学习。建模曝光函数使传感器能够捕获用于重建HDR图像的真实模糊的LDR图像。 总结: 模糊是深度HDR成像中需要考虑的重要因素。 当前的方法大都限于单次曝光HDR成像,对于动态场景多次曝光HDR成像更具挑战性。 可以将盲图像去模糊方法(例如\[121\])与HDR重建流水线相结合。 # 使用新型策略的HDR ```arduino unsupervised HDR GAN-based HDR transfer learning-based HDR meta learning-based HDR attention-based HDR Deep reinforcement-based HDR ``` ## unsupervised HDR 无监督学习**减少了对GT数据的需求** ,对LDR图像融合和HDR图像重建具有很大的潜力。**MEF是一种无监督学习,在静态LDR图像融合** 中得到了广泛的研究,**DeepFuse**(前面静态多曝光融合一节讲过)是一种代表性的无监督方法,包含三种类型的层:特征提取、融合和重建层。该框架是在没有参考图像的情况下学习的,使用基于SSIM图像质量度量的目标函数,目标函数最大化了融合图像与每个输入图像之间的结构一致性。 \[19\]和\[149\]提出了基于GAN的无监督框架,灵感来自CycleGAN,用于学习LDR图像融合。\[150\]和\[151\]探索了源LDR图像之间的对应关系。因此,融合输出与源图像之间的相似性被自适应地保留。 无监督LDR到HDR映射。没 有GT数据的HDR成像是具有挑战性的,特别是对于单曝光HDR图像重建。根据我们的调查,目前没有针对单曝光HDR图像重建的无监督方法。对于多曝光HDR成像,Li等人提出了一种代表性方法,称为UPHDR-GAN,以放松配对数据的约束。该框架建立在GAN上,生成器取三个LDR图像,旨在重建一个HDR图像。鉴别器将色调映射图像与未配对的真实HDR图像区分开来。此外,感知损失用于保留语义信息。 总结: > 大多数无监督方法针对的是FEM-HDR,直接的LDR到HDR映射方法很少。虽然可以在没有使用配对数据的情况下从多曝光LDR图像中重建HDR图像\[152\],但重建质量比监督方法差。 > > 目前没有针对单曝光HDR成像的无监督方法。 ## GAN-based HDR HDR成像的关键问题是学习**光强度和局部对比度的真实数据分布,使用L1或L2损失来最小化HDR图像与GT之间的差异无法有效解决问题** 。相比之下,**GAN可以学习真实的数据分布** ,GAN可以应用于HDR成像:**HDR重建网络可以被视为生成器** ;然后,定义一个**鉴别器来区分生成的图像或GT**。 \[13\],\[155\]首先提出添加对抗损失来帮助训练基于UNet的生成器\[118\]学习reverse ToneMapping。\[156\]随后采用cGAN\[157\]来学习高分辨率和高质量的色调映射。考虑到单曝光HDR成像问题不适定性,\[158\]使用cGAN生成多曝光堆栈。\[18\]提出了一种基于GAN的HDR和SR方法,其中采用了RaGAN作为稳定训练的基本对抗性损失。所有这些方法都专注于单曝光HDR成像。  \[43\],\[69\]将GAN应用于多曝光HDR成像。具体而言,\[43\]的方法采用欠曝光和过曝光图像,并将它们馈送到两个独立的特征学习分支中,然后将它们连接起来重建HDR图像,鉴别器用于区分融合图像是否来自GT。\[69\]的方法使用三个LDR图像,类似于基于参考图像的HDR方法,并将它们馈送到多尺度LDR图像编码器中。提取的特征逐渐聚合到更大的尺度,最终连接起来重建HDR图像。  **总结** > GAN方法训练的稳定性有待提高,特别是当LDR数据分布多样时。 > > GAN可以实现多曝光HDR图像重建,一般使用单个鉴别器来HDR图像与GT。实际上,额外的鉴别器可以区分LDR图像和HDR图像的局部区域。 ## attention-based HDR 注意机制使HDR重建网络能够专注于LDR图像中最相关的区域,(前面**关联性引导的特征匹配**已讲过) \[33\]提出了可学习的注意力模块,以指导多个曝光合并过程,注意力模块生成软注意力图来评估重建HDR图像中不同图像区域的重要性。**使用注意力指导的特征合并可以有效减少HDR中的ghost** 。\[75\]进一步丰富了多曝光合并的注意力指导方法,利用UNet结构\[118\]中编码器和解码器之间的输入的非局部相关性。非局部块有助于建立不同曝光之间的依赖关系,从而消除HDR成像中的幽灵伪影。为了更好地对齐多曝光LDR图像,\[170\]提出了一种**多尺度上下文注意力模块** ,以获取多尺度的注意力特征图以进行对齐。相比之下,\[171\]专注于静态多曝光HDR图像重建,并提出了使用**通道级别的注意力**,来学习LDR图像中欠曝光/过曝光区域的通道统计信息。 总结: > 注意机制对于**动态或静态场景的多曝光合并都是有效的**。 > > 使用注意机制比光流**可以减少幽灵伪影**。 > > 使用注意机制存在**对于边缘和纹理较少的LDR图像的限制**。 > > 增加注意机制的有效性需要更多网络参数,从而**增加计算成本**。 ## transfer learning-based HDR 迁移学习通过将从相关学习任务中学到的知识转移到目标任务中,这种深度学习策略也被研究用于 HDR 成像。\[163\]利用迁移学习克服了缺乏足够大的HDR数据集的问题,将知识从 ImageNet 上的图像分类任务转移出来可以显著改善单曝光 HDR 重建。\[25\]将来自相关大型数据库的学习信息转移到较小的数据库中。 总结: > 迁移学习在 HDR 成像中得到的探索较少, 少量工作通过将从图像分类任务中学到的特征转移到HDR成像任务中。 > > 在多曝光 HDR 成像中,多曝光图像仅对齐到参考图像,未对齐图像的视觉信息挖掘不足,可能各LDR之间的相互学习是一个值得探索的方向。 ## meta learning-based HDR 元学习使得在给定少量特定LDR示例的情况下,可以快速学习HDR成像中的非线性映射。在HDR图像重建中,辐射度和LDR图像的记录像素值之间存在非线性映射\[41\]。SoTA DL方法,例如\[10\]、\[14\],假设单任务学习中存在一致的非线性映射,适用于所有可能的场景。然而,每个场景都有独特的非线性映射。因此,\[26\]提出了一个元学习框架,其中元参数的基础是学习非线性映射中的共同模式。学习非线性映射以更好地适应特定的HDR图像重建任务是合理的。 总结: > 元学习的**潜力仍未被开发**,虽然\[26\]使用流行的元学习算法MAML提出了一个框架,但HDR图像存在颜色饱和和伪影问题。 > > 可以将转移学习与元学习相结合,学习更强大的HDR成像的非线性映射。 ## Deep reinforcement-based HDR 深度强化学习可以有效地学习基于策略梯度的多个局部曝光操作。HDR成像已被用于学习多个局部曝光操作\[172\], 在单个图像中利用多个局部曝光操作进行HDR图像重建,LDR图像被分解成多个子图像,根据策略网络使用不同的曝光(**类似于从单个LDR图像生成多曝光LDR图像堆栈**)。为了简化框架,采用对抗学习,其中鉴别器被视为价值函数。这种简单而新颖的强化对抗学习方法在HDR重建效果很好。  总结: > 只有一种方法使用深度强化学习,未来的研究应考虑使用强化学习的MEF方法。 # 其他输入形式: ```markdown 视频HDR 深度3D全景高动态范围成像洞察 基于深度立体视觉的HDR成像 ``` ## 视频HDR 深度视频HDR旨在从输入的LDR视频中学习清晰的HDR视频,与深度 HDR 成像不同,深度视频HDR关注相对较少,主要原因是视频HDR必须解决**时延问题**。 ### 单交替曝光的视频HDR \[102\]用于从具有交替曝光的LDR序列重建HDR视频;它包括两个步骤:1. 使用**光流网络将相邻帧与当前帧对齐** ; 2. 使用**合并网络来合并重建**最终的HDR帧。  \[103\] 中的方法是另一种直接从LDR视频重建HDR视频的代表性方法,LDR到HDR 的映射**类似于单图像HDR方** 法,然后设计了一个带有**3D卷积自编码器的生成器来解决由时间不一致性引起的闪烁问题**。\[18\],\[41\]目的是做超分辨率的视频HDR,但是只考虑单曝光 HDR 成像流程,而不考虑时间上的一致性。  ### 具有多个交替曝光的视频HDR 尽管在深度多曝光 HDR 成像方面取得了显着进展,但具有多个交替曝光的深度视频HDR仍然具有挑战性。\[44\]和\[45\] 提出了两种代表性视频 HDR 方法。\[44\] 中的方法基于粗到细的框架,使用多个交替曝光作为输入。在粗略重建阶段,**使用光流算法将相邻帧与参考帧对齐** 。在细化阶段,**使用可变形卷积将相邻帧的特征对齐到参考帧上**。最后,将特征在时间上融合以重建 HDR 视频。  \[45\] 中的方法使用三曝光四像素 Bayer 传感器。传感器将每个彩色 Bayer 滤波器空间扩展到四个相邻像素。该方法采用特征融合模块,在特征空间中合并特征以处理运动模糊。提出了一种基于注意力的时间去噪模块,以减少噪声并保持时间上的一致性。同时,设计了一个超分辨率模块以增强空间分辨率。 总结 > 使用DL进行视频 HDR 的研究仍然很少。 > > **通常使用光流将相邻帧与参考帧对齐**;但会导致饱和区域中的误差。 > > DL的HDR视频重建方法,**计算成本比较高**。 > > 阻碍HDR视频重建进展的因素是**缺乏高质量的数据集** # 新型传感器进行深度HDR成像 ```arduino 神经形态相机 神经形态的相机的图像HDR 神经形态增强的HDR成像 红外热感应相机 IR HDR image reconstruction IR image fusion 基于深度模数相机的HDR成像 ``` 不太主流,感兴趣可以简单了解下。 ## 神经形态相机 神经形态相机是一种**新型传感器** ,其具有**比一般相机更高的动态范围**(140dB相比60dB),这对于HDR成像具有很大的潜力和优势。在很多暗光环境下,普通相机很难捕捉到视觉信息,但是event camera可以清晰的反映物体边缘信息,这一独特优势使它们在机器人、自主驾驶和可穿戴应用中具有潜力。如下图基于事件的深度HDR方法,事件相机比基于帧的相机具有更好的HDR能力。(a)事件到HDR图像重建。(b)事件引导的HDR图像重建\[22\]。  ## 红外热感应相机 IR相机在低光条件下具有独特的HDR能力。因此,将IR图像转化为HDR彩色图像可能是提高夜间场景感知的好方法。然而,由于IR图像是灰度的,仅反映物体轮廓,将IR图像转化为HDR彩色图像具有挑战性。 \[24\]提出的方法是一个代表性框架,其中使用粗到细的生成器以监督方式**保留IR图像的纹理细节并生成彩色HDR图像** ,如图a所示。相比之下,\[139\]中的IR-GVI假设没有GT彩色HDR图像可用。因此,IR-GVI提出了一种无监督方法,**将IR图像映射到HDR灰度图像并对这些图像进行着色**,如图b所示。 另一种方向是将**红外和LDR图像融合生成彩色HDR图像** \[141\](类似于多曝光HDR成像流程)如图c所示,(\[17\],\[142\],\[143\]中使用GAN)。第二种策略基于**特征融合**\[143\],\[144\],如图d所示。\[143\]中的方法既使用图像内容融合又使用特征融合。  总结: > 使用GAN从红外图像生成HDR图像是最常见的方法,但是一般**比基于融合的方法差** ,因为单纯的红外图具有**有限的视觉细节**。 > > 基于红外的方法,大多数只能重建灰度HDR图,**灰度图恢复彩色信息依然具有挑战性**。 参考: 1. Deep Learning for HDR Imaging: State-of-the-Art and Future Trends 2021 2. [zhuanlan.zhihu.com/p/33639467](https://link.juejin.cn?target=https%3A%2F%2Fzhuanlan.zhihu.com%2Fp%2F33639467 "https://zhuanlan.zhihu.com/p/33639467")