论文标题 :ALL-E: Aesthetics-guided Low-light Image Enhancement
论文链接 :arxiv.org/abs/2304.14...
项目链接 :dongl-group.github.io/projectpage...
引言
由于光学器件固有的局限性和外部成像条件的限制,低光图像是一类常见的低质量图像。下图中我们列出了两种低光图像,分别是在光照不均匀的环境下和逆光下拍摄的。 我们可以观察到,这样的低光图像会给用户带来不好的视觉体验,并且由于缺乏细节而难以获取内容信息,这将进一步影响下游的视觉任务,例如语义分割、对象检测等等。
低光图像增强任务的首要目标是处理此类低质量图像中的低亮度、低对比度、噪声和伪影等问题,并使用传统方法或基于学习的方法来提高视觉质量并恢复更多的图像细节。 因此,人类主观视觉是衡量相关技术的重要指标,但现有方法忽略了图像增强任务的主观性。 此外,我们观察到图像美学质量评价与人类主观评价在一定程度上是一致的,因此我们尝试在训练中引入美学评价来代表人类主观视觉感知,以帮助提高低光图像增强任务的性能。
方法
由于人类对图像的修饰过程是一个动态且明确的渐进过程,与图像的当前状态因果密切相关,因此我们将 LLE 视为马尔可夫决策过程,将其分解为一系列迭代。
我们提出的 ALL-E
由美学策略生成模块 和美学评估模块 两部分组成。其中,美学策略生成模块采用 A3C 算法流程架构,生成由像素曲线调整的映射参数,即动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> A t A^t </math>At,然后由基于美学预测网络和一系列损失函数组成的美学评估模块生成奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> R t R^t </math>Rt。具体来说,在第 t 步,给定图像 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s^t </math>st 作为输入,美学策略生成模块通过选择的 <math xmlns="http://www.w3.org/1998/Math/MathML"> A t A^t </math>At 生成增强图像 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s^{t+1} </math>st+1,然后将其送到美学评估模块生成即时奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r t r^t </math>rt,然后逐步完成图像增强,直到 n 步。
美学策略生成模块
美学策略生成模块由两个子网络组成:价值网络和策略网络,分别表示为 <math xmlns="http://www.w3.org/1998/Math/MathML"> θ v \theta_v </math>θv 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> θ p \theta_p </math>θp。两个网络都使用当前状态图像 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s^t </math>st 作为第 t 步的输入。 价值网络输出值 <math xmlns="http://www.w3.org/1998/Math/MathML"> V ( s t ) V(s^t) </math>V(st) 代表从状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s^t </math>st 到 <math xmlns="http://www.w3.org/1998/Math/MathML"> s n s^n </math>sn 的期望总折扣奖励,表明当前状态有多好。 <math xmlns="http://www.w3.org/1998/Math/MathML"> R t R^t </math>Rt 则是从状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s^t </math>st 到 <math xmlns="http://www.w3.org/1998/Math/MathML"> s n s^n </math>sn 的总折扣奖励。
<math xmlns="http://www.w3.org/1998/Math/MathML"> V ( s t ) = E [ R t ∣ s t ] V(s^{t}) = \mathbb{E}\left[ R^{t}\mid s^{t}\right] </math>V(st)=E[Rt∣st]
策略网络输出属于动作空间的采取动作的概率,我们将其表示为 <math xmlns="http://www.w3.org/1998/Math/MathML"> π ( A t ∣ s t ) \pi(A^t|s^t) </math>π(At∣st)。 为了衡量在状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s^t </math>st 下选择特定动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> R t R^t </math>Rt 的合理性,我们利用优势函数 <math xmlns="http://www.w3.org/1998/Math/MathML"> G ( A t , s t ) G(A^t,s^t) </math>G(At,st) 给出动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> A t A^t </math>At 的表现与所有可能动作的表现平均值之间的差异。如果这个差值大于 0,则表明动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> A t A^t </math>At 优于平均值,是一个合理的选择;如果差值小于 0,则意味着动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> A t A^t </math>At 低于平均值,不应该被选择。
<math xmlns="http://www.w3.org/1998/Math/MathML"> G ( A t , s t ) = R t − V ( s t ) G(A^{t}, s^{t}) = R^{t} - V(s^{t}) </math>G(At,st)=Rt−V(st)
美学评估模块
美学评估模块使用美学预测网络和一系列损失函数来构建步骤 t 的即时奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r t r^t </math>rt。 <math xmlns="http://www.w3.org/1998/Math/MathML"> r t r^t </math>rt 由三个互补的奖励组成,包括美学质量奖励(Aesthetics Quality Reward)、特征保留奖励(Feature Preservation Reward)和曝光控制奖励(Exposure Control Reward),以保留更好的主观视觉体验和客观评价。
图像的美学质量得分与多种因素密切相关。 在这项工作中,我们专注于通过图像的美感评分来动态调整和提高亮度。 因此,利用审美分数作为直接奖励函数是不合理的,我们改用原始图像和增强图像之间的审美分数差异作当前所选动作的奖励。 图像美学质量奖励表述如下:
<math xmlns="http://www.w3.org/1998/Math/MathML"> r a e s t = ∑ k = 1 K k ( P k ( s t + 1 ) − P k ( s t ) ) r^t_{aes} = \sum_{k=1}^{K} k(P_{k}(s^{t+1}) - P_{k}(s^{t}) ) </math>raest=∑k=1Kk(Pk(st+1)−Pk(st))
K 表示图像美学分数的评分范围,P 表示每个评级的概率。
颜色自然度也是低光图像增强中的一个关键问题,为了防止防止增强图像中潜在的颜色偏差,并避免相邻图像之间的剧烈和急剧变化,我们引入了一种包含照明平滑度惩罚项的颜色恒常性项作为特征保留奖励:
<math xmlns="http://www.w3.org/1998/Math/MathML"> r f e a t = ∑ ∀ ( p , q ) ∈ ξ ( J p − J q ) 2 + λ 1 n ∑ t = 1 n ∑ p ∈ ξ ( ∣ ▽ x ( A t ) p ∣ + ∣ ▽ y ( A t ) p ∣ ) r^t_{fea} =\sum_{\forall (p,q)\in \xi }(J^p-J^q)^2 + \lambda \frac{1}{n}\sum_{t=1}^{n}\sum_{p\in \xi }(\left |{\triangledown _x{(A^{t})}^{p}} \right|+\left |{\triangledown _y{(A^{t})}^{p}} \right|) </math>rfeat=∑∀(p,q)∈ξ(Jp−Jq)2+λn1∑t=1n∑p∈ξ(∣ ∣▽x(At)p∣ ∣+∣ ∣▽y(At)p∣ ∣)
曝光控制奖励主要用于测量局部区域的平均强度值与 RGB 颜色空间中预定义的良好曝光水平的偏差。 <math xmlns="http://www.w3.org/1998/Math/MathML"> r e x p t = 1 B ∑ b = 1 B ∣ Y b − E ∣ r^t_{exp} = \frac{1}{B} \sum_{b=1}^{B} |Y_{b}-E| </math>rexpt=B1∑b=1B∣Yb−E∣
总奖励表示为:
<math xmlns="http://www.w3.org/1998/Math/MathML"> r t = w 1 r a e s t − w 2 r f e a t − w 3 r e x p t r^{t} = w_1 r^t_{aes} - w_2 r^t_{fea} - w_3 r^t_{exp} </math>rt=w1raest−w2rfeat−w3rexpt
实验
定性比较
我们从结果中观察到,通过我们的方法增强的图像美学观感最佳,而且没有明显可辨别的噪声和伪影:
定量比较
我们使用 NIQE 和 UNIQUE 作为非参考评估指标,采用峰值信噪比(PSNR,dB)和结构相似度(SSIM)作为全参考图像质量评估指标,定量地比较各种方法的性能 ,而且我们进行了人类主观调查(User study)进行比较。
消融实验
为了证明我们的技术提出的美学质量奖励和动作空间配置的有效性,我们进行了几次消融实验。
美学质量奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r a e s t r^t_{aes} </math>raest 的缺失使图像阴暗且没有吸引力,而不正确的动作空间设置导致增强图像的某些部分过度曝光,加入美学质量奖励并修改动作空间后获得最佳结果。
结论
我们提出了一种有效的美学引导强化学习方法来解决 LLE 问题。 与大多数现有的基于学习的方法不同,我们的方法将 LLE 视为马尔可夫决策过程来实现渐进式学习。以审美评估分数作为奖励,引入了一般人类主观偏好,有助于产生美观的效果。