【LUT技术专题】图像自适应3DLUT

3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time(2020 TPAMI )

本文将从头开始对3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time,第一篇利用学习的方法来得出图像自适应3DLUT算法进行讲解,这篇主要的亮点在于作者利用CNN和3DLUT结合完成了图像自适应的3DLUT图像增强,在保持LUT轻量化的优势前提下,提升了泛化性和算法性能。参考资料如下:

1\]. [论文地址](https://arxiv.org/pdf/2009.14468) \[2\]. [代码地址](https://github.com/HuiZeng/Image-Adaptive-3DLUT) *** ** * ** *** ## 专题介绍 Look-Up Table(查找表,LUT)是一种数据结构(也可以理解为字典),通过输入的key来查找到对应的value。其优势在于无需计算过程,不依赖于GPU、NPU等特殊硬件,本质就是一种内存换算力的思想。LUT在图像处理中是比较常见的操作,如Gamma映射,3D CLUT等。 近些年,LUT技术已被用于深度学习领域,由SR-LUT启发性地提出了**模型训练+LUT推理** 的新范式。 本专题旨在跟进和解读LUT技术的发展趋势,为读者分享最全最新的LUT方法,欢迎一起探讨交流,对该专题感兴趣的读者可以订阅本专栏第一时间看到更新。 **系列文章如下:** 【1】[SR-LUT](https://blog.csdn.net/PixelMind/article/details/147199182) 【2】[Mu-LUT](https://blog.csdn.net/PixelMind/article/details/147314636) 【3】[SP-LUT](https://blog.csdn.net/PixelMind/article/details/147462554) 【4】[RC-LUT](https://blog.csdn.net/PixelMind/article/details/147493912) 【5】[EC-LUT](https://blog.csdn.net/PixelMind/article/details/147567613) 【6】[SPF-LUT](https://blog.csdn.net/PixelMind/article/details/147645734) 【7】[Dn-LUT](https://blog.csdn.net/PixelMind/article/details/147805516) 【8】[Tiny-LUT](https://blog.csdn.net/PixelMind/article/details/148125003) *** ** * ** *** ## 一、研究背景 简单来说,当时已有的利用CNN实现的图像颜色增强算法,虽然在效果上比较显著,但是消耗大量计算和内存资源,尤其是在一些高分辨率的图像上。本文为了解决这个问题,首次结合3DLUT工具到AI ISP中,保持了LUT低资源消耗的优势,又提升了算法的性能。 回顾传统的3D LUT工具,通常是在ISP pipeline中或者图像编辑工具中作为一个手动调整或者是固化的算子来使用,一般不会随着图像进行自适应的增强,本文提出的方法则可以根据图像的不同输出不同的LUT。 总结就是综合了LUT和原有CNN的优势,然后达到了更好的效果,提升了实用性。 作者接着对比了一下相关工作,阐述本方案的优势之处,有以下三种,三种类型相关工作各有不足,本文的方法则是: 1)使用CNN来实现的image2image是在AI ISP中常见的一个方式,但这种基于CNN的网络在高分辨率下,资源消耗巨大。 2)预测一组预定义的增强算子或映射曲线,这个地方大家可以想象预测一条曲线(1DLUT)用来调整对比度,通过将亮度完成单点1对1的映射提升对比度,通常这类方法会输入一个图像的低分辨率图来进行估计这个曲线,从而完成对高分辨率图像的增强。但这种方法使用的算子过于简单,不能提供足够的增强能力,并且很难从数据中直接学习。 3)采用强化学习来对输入图像进行迭代增强,显然这会牺牲效率,强化学习需要大量约束来帮助模型学习,没有监督学习便于使用。 本文则是可以综合上述的优点,最后总结一下本文的贡献,主要有3点: 1)第一次通过学习3D LUT的方式,使用成对和非成对的数据集进行训练,并完成自动的图像增强 2)提出的模型在600k的参数两下,在Titan RTX GPU上只花费2ms的时间就能够处理4K图像,应用价值高。 3)基准数据集验证了在成对和非成对数据集上,模型在定量和定性的实验中都优于当时最先进的图像增强方法。 ## 二、图像自适应3DLUT方法 ### 2.1 前置知识 1)3DLUT:学习一个3个输入index索引一个3维向量的LUT表,如下图立方体所示,每个立方体上的点都有它对应的值,对应到实际应用,就是颜色的增强。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0a9fc64e8bf3442a97356e19289b4a55.png) 2)trilinear interpolation:立方体插值,通过一个浮点数的位置找到其周围8个顶点的距离进行加权,加权的值是小立方体的体积,插值的点是3D LUT上的点,这个插值方式在本专栏的[SR-LUT](https://blog.csdn.net/PixelMind/article/details/147199182)有讲到过。如下图所示,是一次插值的过程。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/1657ddb19b8b4c91bc7d753c9e1a3b49.png) 用公式表示这个插值过程就是: c ( x , y , z ) O = ( 1 − d x ) ( 1 − d y ) ( 1 − d z ) c ( i , j , k ) O + d x ( 1 − d y ) ( 1 − d z ) c ( i + 1 , j , k ) O + ( 1 − d x ) d y ( 1 − d z ) c ( i , j + 1 , k ) O + ( 1 − d x ) ( 1 − d y ) d z c ( i , j , k + 1 ) O + d x d y ( 1 − d z ) c ( i + 1 , j + 1 , k ) O + ( 1 − d x ) d y d z c ( i , j + 1 , k + 1 ) O + d x ( 1 − d y ) d z c ( i + 1 , j , k + 1 ) O + d x d y d z c ( i + 1 , j + 1 , k + 1 ) O , \\begin{aligned} c_{(x, y, z)}\^{O} \& =\\left(1-d_{x}\\right)\\left(1-d_{y}\\right)\\left(1-d_{z}\\right) c_{(i, j, k)}\^{O}+d_{x}\\left(1-d_{y}\\right)\\left(1-d_{z}\\right) c_{(i+1, j, k)}\^{O} \\\\ \& +\\left(1-d_{x}\\right) d_{y}\\left(1-d_{z}\\right) c_{(i, j+1, k)}\^{O}+\\left(1-d_{x}\\right)\\left(1-d_{y}\\right) d_{z} c_{(i, j, k+1)}\^{O} \\\\ \& +d_{x} d_{y}\\left(1-d_{z}\\right) c_{(i+1, j+1, k)}\^{O}+\\left(1-d_{x}\\right) d_{y} d_{z} c_{(i, j+1, k+1)}\^{O} \\\\ \& +d_{x}\\left(1-d_{y}\\right) d_{z} c_{(i+1, j, k+1)}\^{O}+d_{x} d_{y} d_{z} c_{(i+1, j+1, k+1)}\^{O}, \\end{aligned} c(x,y,z)O=(1−dx)(1−dy)(1−dz)c(i,j,k)O+dx(1−dy)(1−dz)c(i+1,j,k)O+(1−dx)dy(1−dz)c(i,j+1,k)O+(1−dx)(1−dy)dzc(i,j,k+1)O+dxdy(1−dz)c(i+1,j+1,k)O+(1−dx)dydzc(i,j+1,k+1)O+dx(1−dy)dzc(i+1,j,k+1)O+dxdydzc(i+1,j+1,k+1)O, 其中 d x d_x dx、 d y d_y dy、 d z d_z dz分别是到最左下角点的距离,自然每个插值加权了一个立方体的体积。 ### 2.2 整体流程 整体流程如下图所示。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/4c0f44ab4779486b8adfd8712a03b82a.png) 1. 首先输入HR图像进行下采样得到LR图像,LR图像送入CNN weight predictor中预测得到 w 1 w_1 w1、 w 2 w_2 w2、 w 3 w_3 w3,此是用于加权Basis 3D LUTs的权重。 2. 3D LUTs加权后得到一个Image-adaptive 3D LUT,显然这个3D LUT的生成过程是符合随着图像的变化而变化的这个特性的,这个LUT将作用于HR图像完成图像的增强,得到增强结果。 3. 结果进行损失的计算,当然成对的图像使用论文设计的成对损失,否则使用非成对的损失进行模型优化。 作者接下来讲了为什么这么设计的原因,作者认为传统的3DLUT有两个局限性: 1. 3D LUT手工设计,麻烦且昂贵。 2. 1个3D LUT只能提供固定的变换,难以适应不同的场景,现有的一般都是预设一些LUT,然后让用户去选择,这不够灵活。 针对性的,为了解决第一个问题,采用数据驱动的方式,因为是数据集学习,所以也不存在所谓手工设计的情况。 针对第二个局限,模型只需要能够有对图像有针对性的调整即可,则引入了CNN来预测权重,那这里当然会存在一个分歧,如果作者设计成一个分类器,即强行选择某一个LUT(hard-voting strategy)。作者分析了这种方式存在明显的问题,首先,非常难以将某些场景归为特定的一些类从而让他们共享一个LUT,其次由于每个3DLUT都是独立作用于输入图像,因此需要大量的3D LUT来覆盖所有场景,最后分类器的训练独立于各个3D LUT使得他们之间的协作不是最优的,并且一旦分类错误会引入artifact。 ### 2.3 损失函数的设计 1)内容相关的损失: * 针对于成对数据,使用如下所示的MSE损失: L m s e = 1 T ∑ t = 1 T ∥ q t − y t ∥ 2 \\mathcal{L}_{m s e}=\\frac{1}{T} \\sum_{t=1}\^{T}\\left\\\|q_{t}-y_{t}\\right\\\|\^{2} Lmse=T1t=1∑T∥qt−yt∥2,这里的 q t q_t qt和 y t y_t yt是预测和实际的HQ, T T T是数据个数。 * 针对于非成对数据,则使用gan损失,如下所示,分别是生成器和判别器的损失,gan损失是他们的和。 L G = E x \[ − D ( G ( x ) ) \] + λ 1 E x \[ ∥ G ( x ) − x ∥ 2 \] , \\mathcal{L}_{G}=\\underset{x}{\\mathbb{E}}\[-D(G(x))\]+\\lambda_{1} \\underset{x}{\\mathbb{E}}\\left\[\\\|G(x)-x\\\|\^{2}\\right\], LG=xE\[−D(G(x))\]+λ1xE\[∥G(x)−x∥2\], L D = E x \[ D ( G ( x ) ) \] − E y \[ D ( y ) \] + λ 2 E y \^ \[ ( ∥ ∇ y \^ D ( y \^ ) ∥ 2 − 1 ) 2 \] , \\mathcal{L}_{D}=\\underset{x}{\\mathbb{E}}\[D(G(x))\]-\\underset{y}{\\mathbb{E}}\[D(y)\]+\\lambda_{2} \\underset{\\widehat{y}}{\\mathbb{E}}\\left\[\\left(\\left\\\|\\nabla_{\\widehat{y}} D(\\widehat{y})\\right\\\|_{2}-1\\right)\^{2}\\right\], LD=xE\[D(G(x))\]−yE\[D(y)\]+λ2y E\[(∥∇y D(y )∥2−1)2\],则gan损失可以表达为: L g a n = L G + L D \\mathcal{L}_{gan}=\\mathcal{L}_{G}+\\mathcal{L}_{D} Lgan=LG+LD 2)正则化项:作者使用了两个正则化损失,来确保结果的正常: * **平滑损失** :作者使用的TV损失搭配一个 w i w_i wi的权重正则来确保结果的平滑,只不过这个TV损失作用于LUT表上,如下所示。 R T V = ∑ c ∈ { r , g , b } ∑ i , j , k ( ∥ c ( i + 1 , j , k ) O − c ( i , j , k ) O ∥ 2 + ∥ c ( i , j + 1 , k ) O − c ( i , j , k ) O ∥ 2 + ∥ c ( i , j , k + 1 ) O − c ( i , j , k ) O ∥ 2 ) R_{TV} = \\sum_{c \\in \\{r, g, b\\}} \\sum_{i, j, k} \\left( \\\| c_{(i+1, j, k)}\^O - c_{(i, j, k)}\^O \\\|\^2 + \\\| c_{(i, j+1, k)}\^O - c_{(i, j, k)}\^O \\\|\^2 + \\\| c_{(i, j, k+1)}\^O - c_{(i, j, k)}\^O \\\|\^2 \\right) RTV=c∈{r,g,b}∑i,j,k∑(∥c(i+1,j,k)O−c(i,j,k)O∥2+∥c(i,j+1,k)O−c(i,j,k)O∥2+∥c(i,j,k+1)O−c(i,j,k)O∥2),可以看到这里是对于3DLUT的每个维度的梯度的平方做了一个加和,即不希望LUT每一个点的梯度不会太大,发生分层现象。最后平滑损失表示为: R s = R T V + 1 n ∥ w n ∥ 2 \\mathcal{R}_s = \\mathcal{R}_{TV} + \\frac{1}{n} \\\| w_n \\\|\^2 Rs=RTV+n1∥wn∥2在TV损失的基础上添加了一个对 w w w的L2正则损失, w w w控制内容影响的权重而TV控制所使用到的LUT。 * **单调性损失** :作者使用了如下所示的设计来确保LUT是单调的,不会发生分层现象。如下所示: R m = ∑ c ∈ { r , g , b } ∑ i , j , k \[ g ( c ( i , j , k ) O − c ( i + 1 , j , k ) O ) + g ( c ( i , j , k ) O − c ( i , j + 1 , k ) O ) + g ( c ( i , j , k ) O − c ( i , j , k + 1 ) O ) \] \\mathcal{R}_m = \\sum_{c \\in \\{r, g, b\\}} \\sum_{i, j, k} \\left\[ g \\left( c_{(i, j, k)}\^O - c_{(i+1, j, k)}\^O \\right) + g \\left( c_{(i, j, k)}\^O - c_{(i, j+1, k)}\^O \\right) + g \\left( c_{(i, j, k)}\^O - c_{(i, j, k+1)}\^O \\right) \\right\] Rm=c∈{r,g,b}∑i,j,k∑\[g(c(i,j,k)O−c(i+1,j,k)O)+g(c(i,j,k)O−c(i,j+1,k)O)+g(c(i,j,k)O−c(i,j,k+1)O)

这个公式中的 g g g代表标准ReLU,这个正则项是为了满足单调递增性的,当索引增大时,我们需要将其增大,因此当满足增大这个条件时,ReLU会使得损失为0,否则不为0。

三、实验结果

本篇文章的实验非常详细,首先讲一下消融实验

1)预设的3D LUT数目,文中展示的是3个,作者做了实验。

这里的Delta E 是CIELAB色彩空间中定义的色差度量,显然定量的实验证明是LUT数目越多,效果越好,但作者为了权衡资源消耗和效果选择了3个,毕竟后续效果增长不多。

2)正则损失的权重大小:引入了 λ s \lambda_s λs和 λ m \lambda_m λm分别代表平滑损失和单调损失的大小,首先实验了他们的一个单调增长对于效果的影响, λ s \lambda_s λs越大,PSNR会显著下降,这是可以预料到的,因为平滑性限制了3D LUT的转换灵活性,而对于单调性来说,权重影响不大,因为他只是一个自然的约束,不会对其增强效果有太多抑制。
.

然后作者做了一个定性的实验来看这些损失对于实际效果的影响,如下图所示。

对于完全不加约束的(a)来说,中间的天空出现了明显的分层现象,(b)做了平滑损失有一定的改善,但还是存在带状的一个分层,©有单调约束后对于带状的分层有了改善,但是仍然存在部分局部不平滑的问题,相比较来说(d)就更加好,不存在前面的问题,结合起来效果才会更好一些,作者在这里还做了对LUT切面的分析,整体会更有说服力,感兴趣的作者可以补充看一下,作者的实验做的非常的完整和详细。

最终作者通过以上实验给出了结论选择 λ s \lambda_s λs和 λ m \lambda_m λm分别为0.0001和10,在增强和模型稳定性之间取得一个平衡。

3)自适应LUT:这个主要就是看CNN给的weight是否有用,显然是有用的,作者做了定性的实验来说明这点。

针对自适应的LUT,固定LUT的效果有明显劣势。

消融实验讲完了,后续是作者的一些跟其他方法的效果对比实验。

1)成对数据:

  • 定量实验:优势明显。
  • 定性实验:同样优势明显。

    跟较sota的HDRNet做了更细节的对比,效果上天空有优势,泛化性更好。

2)非成对数据:

  • 定量实验:优势明显。

  • 定性实验:效果上有优势。

3)User study:用户主观的判断,同样是优势。

其中(a)是他们的测试界面,(b)和(c) 是成对和非成对类的结果对比,用户喜爱比是领先的。

4)耗时比对:非常明显的优势,差了数量级。

四、局限

作者提了几个局限,从这里也可以看出这篇文章的内容非常的详细和完整,做了大量的实验。

1)局部对比度不够:因为是全局的LUT方法,所以在一些场景下存在问题,比如说:

在不加local tone mapping之前,3DLUT对于阴影部分的处理是不够好的。

2)可能会对噪声进行增强:由于增强可能会放大噪声,所以是需要在有噪声的环境下配合降噪使用。

图中放大的部分存在噪声被增强的情况。

五、总结

图像自适应的3DLUT算是开了一个新篇章,能够有效的根据图像来自适应的生成3DLUT对图像进行增强,并且引入的正则项可以有效的抑制模型的异常,整体来说是非常实用的一个技术,相信在很多实际的场景下已经得到了应用。

代码部分将会单起一篇进行解读。(未完待续)


感谢阅读,欢迎留言或私信,一起探讨和交流,如果对你有帮助的话,也希望可以给博主点一个关注,谢谢。

相关推荐
半桔38 分钟前
【烧脑算法】不定长滑动窗口:从动态调整到精准匹配以灵活特性实现高效破题
数据结构·c++·算法·leetcode·面试·职场和发展·排序算法
不会敲代码的灵长类1 小时前
机器学习算法-逻辑回归
算法·机器学习·逻辑回归
拓端研究室TRL1 小时前
消费者网络购物意向分析:调优逻辑回归LR与决策树模型在电商用户购买预测中的应用及特征重要性优化
人工智能·算法·决策树·机器学习·逻辑回归
进阶的小蜉蝣1 小时前
[leetcode] 二分算法
算法·leetcode·职场和发展
JK0x071 小时前
代码随想录算法训练营 Day61 图论ⅩⅠ Floyd A※ 最短路径算法
算法·图论
Mi Manchi261 小时前
力扣热题100之对称二叉树
python·算法·leetcode
緈福的街口1 小时前
【leetcode】459.重复的子字符串
linux·算法·leetcode
CoovallyAIHub2 小时前
基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破
深度学习·算法·计算机视觉
二猛子2 小时前
排序算法-归并排序与快速排序
数据结构·c++·算法·排序算法
依然易冷2 小时前
【复杂指令遵循 Benchmark】论文分享:CodeIF
算法