AISP Pipeline | 端到端camera成像原理

⚡ Model-Based Image Signal Processors via Learnable Dictionaries

✌️ 本文主要介绍华为手机相机成像模块中基于AI的ISP，可取代传统人工调参的ISP pipeline，实现了RGB和RAW可逆双向映射。

👀 Abstract

数码相机通过其图像信号处理器（ISP）将传感器 RAW 读数转换为 RGB 图像。计算摄影任务（如图像去噪和色彩恒定性）通常在RAW域中执行，部分原因是固有的硬件设计，但也由于直接传感器读数产生的噪声统计的简单性。尽管如此，与可用RGB数据的丰富性和多样性相比，RAW图像的可用性是有限的。
最近的方法试图通过估计RGB到RAW的映射来弥合这一差距：手工制作的基于模型的可解释和可控方法通常需要手动参数微调，而端到端可学习的神经网络需要大量的训练数据，有时需要复杂的训练程序，并且通常缺乏可解释性和参数控制。
为了解决这些局限性，我们提出了一种基于混合模型和数据驱动的新型 ISP，它建立在规范的 ISP 操作之上，并且具有可学习性和可解释性。我们提出的可逆模型能够在RAW和RGB域之间进行双向映射，采用丰富的参数表示（即字典）的端到端学习，这些表示不受直接参数监督，并且还能够实现真实的数据增强。我们通过在RAW图像重建和RAW图像去噪任务下的广泛实验证明了我们的数据生成过程的价值，并在两者中都获得了最先进的性能。此外，我们表明，我们的ISP可以从少量数据样本中学习有意义的映射，并且使用我们基于字典的数据增强训练的去噪模型具有竞争力，尽管只有很少或零的真值标签。

我们提出了一种混合模型，该模型结合了基于模型的物理 ISP 操作和数据驱动的深度学习方法的强大功能。我们用可微分的ISP模型来约束求解空间，把相机参数作为字典来学习。
我们可以端到端地学习相机参数，无需手动微调或参数监督。因此，我们可以在没有先验信息的情况下对任何相机进行建模。
该模型具有模块化和可解释性，允许我们添加、修改或检查任何所需的块。
我们的方法是可逆的，我们可以学习任何ISP相机的正向和反向转换。

现代智能手机摄像头通常会根据特定的光线条件和拍摄模式使用不同的 CCM （Color Correction Matrix）和捕捉模式的不同而使用不同的 CCM。

CCM 模式的方法可能难以应对色彩变化。此外，ISP 模型可能会被训练用于重建不同相机拍摄的 RAW 图像，因此也会有不同的 ISP 和 CCM。

色调映射是照相机用来映射一组颜色的技术，通过压缩高强度和低强度值比中间强度值更大。色调映射通常设计为一维查找表（LUT），应用于每个色彩通道，以调整图像的色调值，或平滑步进 S 曲线。从 sRGB 重建 RAW 数据色调是一项挑战，尤其是在过曝区域和高动态范围图像中。
提出了一种 piecewise linear CNN。在正向传递中，使用 f 1 进行色调映射。在反向传递中，我们使用 f -1 进行反色调映射。这两个函数都是使用 pixel-wise convolutional blocks 实现的浅层 CNN，限制可能的变换并轻松控制网络，

由于传感器的光学原理，照射到传感器上的光量向边缘径向衰减，产生渐晕效果，即所谓的镜头阴影。
我们建议将该掩码建模为像素级的增益图 gain map
- 1 Gaussian mask
  - 优化 µ 和 Σ
- 2 Attention-guided mask
  - 用 CNN attention block