第8章：ISP降噪技术全景

1. 本章先解决什么问题

降噪是 ISP 里最容易被误解的模块之一。初学者常把它理解成"把画面磨平"，但真正的降噪不是追求光滑，而是在每个位置判断：哪些随机变化是噪声，哪些变化是真实细节、边缘、纹理、星点、文字或物体轮廓。

这件事困难在于：噪声和细节在图像上都表现为"局部变化"。如果降噪太弱，暗部会脏、彩噪会明显、视频会闪；如果降噪太强，皮肤会像塑料，草地会糊成一片，文字边缘会软，后续检测/识别任务也可能丢失特征。

本章最小链路是：

text 复制代码

输入：带噪声的 RAW、RGB、YUV 或连续多帧图像
处理：估计噪声强度，按空间/颜色/时间/频率/内容选择滤波或重建策略
输出：噪声更低、细节尽量保留、伪影可控的图像或视频流

要注意，ISP 降噪不是只有一个固定位置。它可能出现在多个域：

text 复制代码

RAW 域降噪：更接近传感器噪声模型，但要尊重 Bayer/CFA
RGB 域降噪：颜色已经重建，便于视觉处理，但噪声也被前面模块改变
YUV 域降噪：可以分开处理亮度噪声和色度噪声，常见于视频/编码前
时域降噪：利用多帧冗余，但必须处理运动、遮挡和鬼影
学习型降噪：利用数据学习复杂先验，但依赖噪声模型、训练数据和泛化验证

读完本章，至少要能回答：

传感器噪声主要从哪里来。
为什么暗部更容易看起来脏。
为什么降噪强度不能全图一样。
RAW、RGB、YUV、时域降噪分别适合处理什么问题。
为什么评价降噪不能只看 PSNR。

2. 噪声不是一种东西

图像噪声不是一个单一概念。不同来源的噪声有不同统计特性，也需要不同处理策略。

噪声类型	直觉表现	物理/工程来源	常见处理方式
Shot noise 光子散粒噪声	光本身带来的随机颗粒	光子到达是随机过程，通常用 Poisson 模型描述	增加曝光/进光量、RAW 噪声模型、自适应降噪
Read noise 读出噪声	暗部也有随机波动	放大器、ADC、读出链路、电路热噪声	传感器设计、低噪声读出、暗场建模
Dark current noise 暗电流噪声	长曝光/高温下暗部亮点或颗粒	无光条件下热激发电子	降温、暗帧校正、长曝光降噪
Fixed pattern noise 固定模式噪声	固定纹理、条纹、列噪	像素/列/读出通道不一致	BLC、FPN/PRNU 校正、列校正
Quantization noise 量化噪声	低 bit 或弱信号下台阶感	ADC 位深不足或信号太弱	合理位宽、dither、避免过度欠曝
Chrominance noise 色噪	暗部红绿蓝彩点	通道噪声和 demosaic/颜色处理扩散	色度降噪、RAW 前端降噪
Compression noise 压缩噪声	块效应、蚊噪	编码压缩而非传感器本身	编码前降噪、后处理、码率控制

初学者最应该先抓住两类：shot noise 和 read noise。

Shot noise 来自光子的随机到达。简单说，同样亮度的场景，每次真正落到某个像素里的光子数都不是完全相同的。光子数越少，相对波动越明显，所以暗部噪声看起来更严重。

Read noise 来自读出链路。即使没有光，传感器读出来也不会是完美零值。它在暗部尤其关键，因为暗部真实信号小，读出噪声占比就高。

3. Poisson-Gaussian 噪声模型

RAW 图像降噪常用 Poisson-Gaussian 混合模型描述噪声。Foi、Trimeche、Katkovnik、Egiazarian 关于 single-image RAW data 的论文把噪声建模为信号相关的 Poisson 部分和剩余稳定扰动的 Gaussian 部分。ISP 工程里常写成：

text 复制代码

variance(I) = a * I + b

其中：

I：像素强度，通常是扣除黑电平后的线性 RAW 值。
variance(I)：该亮度附近的噪声方差。
a * I：信号相关项，对应 shot noise。信号越大，绝对噪声方差越大。
b：信号无关项，对应 read noise、暗电流残余等近似常量噪声。

一个小例子：

text 复制代码

a = 0.02
b = 16

暗部 I = 100：
variance = 0.02 * 100 + 16 = 18
std ≈ 4.24
SNR ≈ 100 / 4.24 ≈ 23.6

亮部 I = 2000：
variance = 0.02 * 2000 + 16 = 56
std ≈ 7.48
SNR ≈ 2000 / 7.48 ≈ 267.4

这说明一个重要现象：亮部的绝对噪声标准差可能更大，但相对信号来说更小；暗部的绝对噪声不一定最大，但看起来更脏，因为 SNR 低。

这个模型在工程上有什么用？

根据亮度决定降噪强度：暗部强一些，亮部弱一些。
根据 ISO/增益选择噪声参数：高增益下 a、b 通常变大。
给 RAW denoise、demosaic、AI denoise 提供噪声水平输入。
做合成噪声数据时，不要只加固定 Gaussian noise。

4. SNR：为什么"多进光"比后期降噪更根本

SNR 是 Signal-to-Noise Ratio，信噪比。可以先用直觉理解：

text 复制代码

真实信号越大，噪声相对越小，画面越干净。
真实信号越小，噪声相对越大，暗部越脏。

如果只考虑 shot noise，光子数为 N 时，噪声标准差约为 sqrt(N)，SNR 约为：

text 复制代码

SNR = N / sqrt(N) = sqrt(N)

这带来一个很重要的结论：收集到的光子越多，SNR 越好，但不是线性提升。光子数从 100 增加到 400，SNR 从 10 增加到 20。

所以，降噪算法不能违反物理。它可以在视觉上减少随机颗粒，但不能凭空恢复没有被传感器记录下来的真实细节。若曝光严重不足，后期拉亮会同时放大信号和噪声，算法只能在"保细节"和"抹噪声"之间做更痛苦的取舍。

这也是为什么相机系统里曝光、增益、光圈、快门、传感器尺寸、像素尺寸和降噪是联动问题，而不是单独一个滤波器问题。

5. RAW 域降噪：越早越接近噪声本源

RAW 域降噪发生在 demosaic 前后附近，理想情况下越靠近传感器输出，噪声模型越清楚。它的优点是：

数据仍是线性的，适合 Poisson-Gaussian 模型。
还没有经过 demosaic，噪声没有扩散到多个颜色通道。
可以按 Bayer 同色邻域处理，避免跨颜色误滤。
可以保护后续 demosaic 的梯度判断。

但 RAW 域降噪也有难点：

每个像素只有一个颜色采样，不能像 RGB 图那样直接看完整颜色。
R、Gr、Gb、B 四个相位的噪声和响应可能不同。
过强 RAW denoise 会破坏 demosaic 所需的细节结构。
坏点、黑电平、镜头阴影、AWB 增益都会影响噪声统计。

一个常见顺序可以理解为：

text 复制代码

BLC -> BPC/DPC -> LSC -> RAW denoise -> demosaic

这个顺序不是唯一答案，但它说明了一个基本原则：先修明显的系统性错误和坏点，再做统计意义上的降噪。否则坏点可能被当成高频细节，或者被滤波扩散。

6. RGB/YUV 域降噪：更接近人眼，也更接近编码

RGB 域降噪发生在 demosaic 后。此时每个像素都有 R、G、B 三个通道，算法可以利用颜色关系和完整空间结构。它适合处理：

demosaic 后的轻微彩噪。
局部颜色不稳定。
与颜色校正、tone mapping 后视觉相关的噪声。

但 RGB 域噪声已经不是原始传感器噪声。demosaic、白平衡、颜色矩阵、tone curve 都会改变噪声分布。因此 RGB 域降噪不能简单套用 RAW 噪声模型。

YUV 域降噪常用于视频和编码前处理。它把亮度和色度分开：

text 复制代码

Y：亮度/细节结构，人眼对它更敏感
U/V：色度，人眼对空间细节相对不那么敏感

所以很多系统会对色度噪声下手更重，对亮度细节更谨慎。这就是为什么一些高 ISO 图像会保留一点亮度颗粒，但尽量压掉彩色斑点。视觉上，细腻的亮度颗粒有时比糊掉细节更容易接受；大片红绿蓝彩噪则非常刺眼。

7. 空域降噪：在同一帧里找相似信息

空域降噪只使用当前这一帧。它的基本假设是：一个像素附近，或者图像其他相似区域里，有可以帮助估计真实值的信息。

常见方法可以按复杂度理解：

方法	核心思想	优点	风险
均值滤波	邻域平均	极简单	边缘和纹理一起糊掉
中值滤波	用中值替代	对椒盐噪声和孤立异常有效	对 Gaussian/shot noise 不一定最优
高斯滤波	按空间距离加权平均	平滑自然	仍会跨边缘模糊
双边滤波	同时看空间距离和值域相似度	边缘保持	参数难调，可能出现阶梯感
导向滤波	用引导图保持结构	快、边缘友好	引导图错会传递错误结构
NLM	找相似 patch 做非局部平均	纹理保留更好	计算量大，实时硬件困难
BM3D	相似块分组 + 3D 变换稀疏化	传统降噪强基线	实现复杂，低延迟 ISP 中成本高

双边滤波是学习边缘保持降噪的好入口。Tomasi 和 Manduchi 1998 年提出的 bilateral filtering 同时考虑几何距离和像素值相似度。直觉是：

text 复制代码

离我近的像素更可信。
亮度/颜色和我相近的像素更可信。
离我近但跨过边缘的像素，不应该被强烈平均进来。

它的典型形式是：

text 复制代码

输出 = 周围像素的加权平均
权重 = 空间权重 * 值域权重

其中：

空间权重控制窗口范围。
值域权重控制跨边缘的抑制程度。
空间权重太大容易全局变糊。
值域权重太严格会残留噪声，也可能产生局部块状或阶梯感。

8. 时域降噪：多帧平均很强，但运动很麻烦

时域降噪利用连续帧之间的冗余。直觉很简单：真实静态物体在相邻帧里差不多，随机噪声每帧都不同。把多帧信息融合，可以显著降低噪声。

最简单的递归时域滤波可以写成：

text 复制代码

out_t = alpha * current_t + (1 - alpha) * out_{t-1}

其中：

current_t：当前帧。
out_{t-1}：上一帧降噪结果。
alpha：当前帧权重。
alpha 小：降噪强，但容易拖影。
alpha 大：响应快，但降噪弱。

如果画面完全静止，多帧平均很有效；如果物体运动或相机移动，简单平均会产生 ghosting，也就是鬼影/拖影。

所以时域降噪必须解决：

运动检测：当前像素和历史像素是否对应同一个物体。
运动补偿：用光流、块匹配、特征或硬件运动估计对齐。
遮挡处理：新出现区域不能强行融合旧帧。
闪烁控制：降噪强度变化不能造成视频忽明忽暗。
延迟控制：用多少历史帧会影响实时性。

FastDVDnet 这类视频降噪论文展示了学习型时域降噪可以在不显式光流的情况下利用多帧上下文，但工程上仍要关心算力、延迟、场景泛化和运动伪影。

9. 频域和变换域降噪：把噪声放到另一个坐标系里看

频域、小波域、DCT 域、BM3D 的 3D 变换域，本质上都在利用一个事实：很多自然图像在某些变换域里是"稀疏"的，真实结构集中在少数系数上，而噪声分散在很多系数上。

小波降噪常见思路：

text 复制代码

图像 -> 小波分解 -> 高频系数阈值处理 -> 逆小波重建

DCT 降噪常见于块处理：

text 复制代码

图像块 -> DCT -> 抑制小系数 -> 逆 DCT

BM3D 更进一步：

text 复制代码

找相似图像块 -> 堆成 3D 组 -> 3D 变换 -> 阈值/维纳滤波 -> 聚合回图像

Dabov、Foi、Katkovnik、Egiazarian 2007 年的 BM3D 论文是传统图像降噪中的重要基线。它很强，但也提醒我们：强降噪往往需要复杂搜索、变换和聚合，未必适合所有低功耗、低延迟 ISP 硬件。

10. 学习型降噪：强，但不能脱离噪声模型

深度学习降噪可以直接学习从 noisy image 到 clean image 的映射，也可以学习残差噪声、噪声水平条件、RAW 到 RGB 联合恢复、多帧融合等。它的优势是能表达复杂先验，尤其在低照度、真实噪声、多帧视频中很有潜力。

但学习型降噪有几个关键风险：

训练噪声和真实噪声不匹配：模型在合成 Gaussian noise 上很好，真实 RAW 上可能翻车。
传感器泛化：不同 sensor、ISO、黑电平、CFA、ISP 顺序会改变噪声。
细节幻觉：模型可能把噪声"修"成看似合理但并不真实的纹理。
任务风险：视觉上更好不代表检测、测量、医学、工业任务更可靠。
算力延迟：移动端、车载、嵌入式实时视频不能只看离线指标。

所以学习型降噪不是"替代所有传统降噪"，更合理的理解是：它可以利用传统噪声模型、RAW 物理先验、时域信息和数据集经验，形成更强的重建器。传统方法仍然是理解、调试、标定和兜底的基础。

11. 降噪强度如何按内容自适应

好降噪通常不是全图一个强度。不同区域应该不同处理：

区域	典型策略	原因
暗部平坦区	降噪强一些	SNR 低，噪声明显，细节少
亮部平坦区	降噪弱一些	SNR 高，噪声不显眼
边缘	保守降噪	边缘决定清晰度
纹理区	谨慎降噪	噪声和细节难区分
人脸皮肤	控制颗粒但保留自然纹理	过强会塑料感
天空/墙面	可较强平滑	大面积平坦区噪声显眼
文字/车牌/细线	尽量保细节	任务和可读性敏感
运动区域	降低时域融合	防鬼影

一个实用思想是建立 noise profile 或 noise curve：根据 ISO、亮度、通道、温度、曝光时间估计噪声，再把这个估计传给降噪模块。Raspberry Pi Camera Algorithm and Tuning Guide 中也能看到类似工程思路：空间降噪控制算法会根据 noise profile 推导 ISP 参数。

12. 评价降噪不能只看 PSNR

PSNR 和 SSIM 很常用，但不能完全代表降噪质量。

PSNR 偏向像素误差。如果一个算法把纹理磨平，它可能降低了随机误差，PSNR 变高，但主观看起来很假。

SSIM 更关注结构，但也可能漏掉色噪、局部伪影、视频闪烁。

真实评估应该至少包括：

平坦区：噪声是否下降。
纹理区：细节是否保留。
边缘区：是否变软、是否有 halo。
暗部区：是否有彩噪、块状、涂抹。
人脸/皮肤：是否自然。
文字/细线：是否可读。
视频：是否闪烁、拖影、鬼影。
任务：检测、识别、测量、SLAM 等是否受影响。

最小评估方式：

text 复制代码

整图指标 + 多个局部 crop + 暗部放大 + 高频纹理放大 + 视频连续播放

不要只看缩略图。很多降噪伪影在缩略图里非常漂亮，一放大就露馅。

13. 最小可验证实验

实验 1：理解噪声模型。

生成一张线性灰阶图。
分别加入固定 Gaussian noise 和 Poisson-Gaussian noise。
比较暗部、亮部的噪声相对强度。
观察为什么真实 RAW 噪声不应只用固定标准差模拟。

实验 2：比较空域滤波。

准备一张含有平坦区、边缘、纹理、文字的图。
分别运行均值、中值、高斯、双边、导向滤波。
裁剪平坦区、边缘区、纹理区、文字区。
比较噪声下降、边缘保留、纹理损失和伪影。

实验 3：比较 RAW 域和 RGB 域降噪。

对同一张 Bayer RAW，先做 RAW 降噪再 demosaic。
另一路先 demosaic 再 RGB 降噪。
对比彩噪、细节、边缘和 demosaic 伪影。
观察噪声是否被 demosaic 扩散。

实验 4：时域降噪与鬼影。

用一段静态视频和一段有运动的视频。
使用简单递归平均。
调整 alpha。
静态区观察噪声下降，运动区观察拖影。

实验 5：指标与主观不一致。

对同一图像生成弱降噪、中降噪、强降噪结果。
记录 PSNR/SSIM。
同时裁剪纹理、皮肤、文字、暗部。
判断哪张视觉上更好，哪张任务上更可靠。

14. 错误现象排查表

现象	可能原因	排查方向
暗部彩点明显	RAW/RGB 色噪控制不足，增益过高	检查 noise profile、RAW denoise、色度降噪
画面像塑料	降噪过强，纹理被抹掉	降低纹理区强度，检查高频保留
边缘发糊	空域滤波跨边缘平均	加边缘保护、调小空间核
亮暗交界有 halo	双边/导向参数不合适或后续锐化放大	查看边缘 crop，调整值域权重和锐化
视频有拖影	时域融合太强，运动检测失败	增大当前帧权重，改进运动补偿
视频有闪烁	帧间降噪强度变化大	平滑噪声估计和参数变化
细节里有彩色碎纹	demosaic 后色噪扩散	加强 RAW 域或色度域处理
指标高但视觉假	过平滑提高了像素误差指标	加主观 crop 和任务指标
AI 降噪出现奇怪纹理	训练噪声/场景不匹配	检查数据集、噪声合成、传感器域差异

15. 常见误区

误区 1：降噪越强越好。过强会抹掉真实细节，甚至影响后续视觉任务。
误区 2：噪声都是 Gaussian。RAW 里常见的是信号相关 shot noise 加读出噪声的混合。
误区 3：暗部噪声大只是 ISO 问题。欠曝、读出噪声、暗电流、后期拉亮都会影响。
误区 4：PSNR 高就是好。纹理损失、塑料感、色噪和视频鬼影需要单独看。
误区 5：RGB 降噪可以替代 RAW 降噪。demosaic 后噪声已经扩散，统计特性也改变了。
误区 6：时域平均一定更好。没有运动处理，多帧融合会产生拖影和鬼影。
误区 7：AI 降噪天然懂真实噪声。模型只懂训练数据和损失函数里出现过的规律。

16. 学习优先级

必须掌握：

shot noise、read noise、dark current noise 的区别。
Poisson-Gaussian 模型 variance(I)=aI+b 的含义。
RAW、RGB、YUV、时域降噪的输入输出和适用场景。
均值/高斯/中值/双边/导向/NLM 的基本直觉。
降噪强度过强、过弱的图像后果。
PSNR/SSIM 与主观 crop 结合评估。

了解即可：

小波、DCT、BM3D 的变换域思想。
运动补偿时域滤波的实现细节。
noise profile 标定、ISO 分档、温度相关参数。
学习型降噪的数据构建和泛化风险。

后面再回看：

BM3D、NLM、导向滤波的完整数学推导。
RAW burst denoise、video denoise、联合 demosaic-denoise 网络。
面向实时硬件的 LUT、定点化、line buffer 和带宽优化。

17. 自测题

为什么暗部比亮部更容易看起来脏？
variance(I)=aI+b 里 aI 和 b 分别对应什么噪声来源？
RAW 域降噪和 RGB 域降噪的最大区别是什么？
为什么双边滤波比普通高斯滤波更能保边缘？
NLM 和 BM3D 为什么能利用"相似块"降噪？
时域降噪为什么会产生鬼影？
色度降噪为什么常常可以比亮度降噪更强？
为什么 AI 降噪需要关注训练噪声是否接近真实噪声？
如何设计一个实验说明"指标高但视觉不一定好"？
如果降噪后文字变糊，你会优先检查哪些参数或模块？

18. 读完本章的验收标准

合格的学习结果应该是：

口头解释：能讲清降噪是在噪声、细节、边缘、运动之间做取舍。
输入输出：能区分 RAW、RGB、YUV、时域降噪的数据对象。
公式理解：能用 variance(I)=aI+b 解释暗部噪声和 ISO 变化。
方法判断：能说出均值、高斯、中值、双边、导向、NLM、BM3D、时域降噪各自适合什么。
现象排查：能根据塑料感、彩噪、边缘糊、halo、鬼影、闪烁提出原因。
实验验证：能用指标加局部 crop 对比不同降噪强度，而不是只看缩略图。

19. 推荐资料与进一步阅读

Foi et al., Practical Poissonian-Gaussian noise modeling and fitting for single-image raw-data：理解 RAW 噪声建模的经典论文。
Tomasi and Manduchi, Bilateral Filtering for Gray and Color Images：双边滤波的经典来源。
He, Sun, Tang, Guided Image Filtering：导向滤波和边缘保持平滑的重要论文。
Buades, Coll, Morel, Non-Local Means Denoising：NLM 的直观解释和可复现实现。
Dabov et al., Image denoising by sparse 3-D transform-domain collaborative filtering：BM3D 经典论文。
FastDVDnet: Towards Real-Time Deep Video Denoising Without Flow Estimation：学习型视频降噪和时域信息利用的代表性资料。
Raspberry Pi Camera Algorithm and Tuning Guide：从真实相机调参角度理解 noise profile 和 ISP denoise 参数。

本章深入探讨ISP中的降噪技术，从噪声建模的理论基础到各种降噪算法的硬件实现策略。我们将系统性地分析空域、时域、频域以及联合域的降噪方法，重点关注它们在自动驾驶和具身智能场景下的应用与优化。通过本章学习，读者将掌握ISP降噪模块的设计原理、实现权衡以及性能优化技术。

8.1 噪声建模与分析

8.1.1 泊松-高斯噪声模型

图像传感器的噪声主要来源于光子散粒噪声（Shot Noise）和读出噪声（Read Noise）。在ISP设计中，我们通常采用泊松-高斯混合模型来描述总体噪声特性：

\\sigma\^2_{total}(I) = \\alpha \\cdot I + \\beta

其中：

I I I 是像素强度值
α \alpha α 是与光子散粒噪声相关的系数（信号依赖项）
β \beta β 是与读出噪声相关的常数项（信号无关项）

这个模型在不同ISO设置下具有不同的参数：

(\alpha = g \cdot QE \cdot t_{exp})

(\beta = \sigma^2_{read} + \sigma^2_{dark} \cdot t_{exp})

其中：

g g g 是系统增益
Q E QE QE 是量子效率
t e x p t_{exp} texp 是曝光时间
σ r e a d 2 \sigma^2_{read} σread2 是读出噪声方差
σ d a r k 2 \sigma^2_{dark} σdark2 是暗电流噪声系数

8.1.2 噪声传播特性

在ISP流水线中，噪声会随着各个处理模块而传播和变换。以去马赛克（Demosaicing）为例，插值操作会改变噪声的空间相关性：

复制代码

原始Bayer噪声分布:
R G R G
G B G B
  ↓
去马赛克后RGB通道噪声相关性增加

噪声传播的数学描述：

\\sigma\^2_{out} = \\sum_{i,j} w_{i,j}\^2 \\cdot \\sigma\^2_{in}(i,j)

其中 w i , j w_{i,j} wi,j 是插值权重系数。

8.1.3 场景相关的噪声特性

在自动驾驶场景中，噪声特性会因环境条件而变化：

低照度场景（夜间、隧道）：高ISO导致增益噪声显著增加
信噪比急剧下降： S N R = 20 log ⁡ 10 ( μ I σ I ) SNR = 20\log_{10}(\frac{\mu_I}{\sigma_I}) SNR=20log10(σIμI)
高动态范围场景（隧道出入口）：暗区噪声明显，亮区接近饱和
需要分区域噪声建模
恶劣天气（雨雾）：散射导致的额外噪声源
时域相关性降低

8.2 空域降噪技术

8.2.1 双边滤波器（Bilateral Filter）

双边滤波器是ISP中最常用的边缘保持滤波器，其核心思想是同时考虑空间距离和像素值相似度：

BF\[I\]*p = \\frac{1}{W_p} \\sum*{q \\in \\Omega} G_{\\sigma_s}(\|p-q\|) \\cdot G_{\\sigma_r}(\|I_p - I_q\|) \\cdot I_q

其中：

G σ s G_{\sigma_s} Gσs 是空间高斯核： G σ s ( x ) = exp ⁡ ( − x 2 2 σ s 2 ) G_{\sigma_s}(x) = \exp(-\frac{x^2}{2\sigma_s^2}) Gσs(x)=exp(−2σs2x2)
G σ r G_{\sigma_r} Gσr 是值域高斯核： G σ r ( x ) = exp ⁡ ( − x 2 2 σ r 2 ) G_{\sigma_r}(x) = \exp(-\frac{x^2}{2\sigma_r^2}) Gσr(x)=exp(−2σr2x2)
W p W_p Wp 是归一化系数

硬件实现优化策略：

查找表（LUT）优化：预计算高斯权重，将指数运算转换为查表操作：

空间权重LUT: weight_s[d] = exp(-d²/2σ_s²)
值域权重LUT: weight_r[Δ] = exp(-Δ²/2σ_r²)
分离式实现 ：将2D滤波分解为两个1D滤波，减少计算复杂度从 O ( N 2 ) O(N^2) O(N2) 到 O ( 2 N ) O(2N) O(2N)
固定点量化：

权重量化: Q8.8格式 (8位整数，8位小数)
累加器: Q16.16格式防止溢出

8.2.2 非局部均值（NLM）算法概述

NLM算法通过在更大范围内寻找相似块来实现降噪，其基本公式为：

NLM\[I\]*p = \\sum*{q \\in \\Omega} w(p,q) \\cdot I_q

其中权重 w ( p , q ) w(p,q) w(p,q) 基于块相似度计算：

w(p,q) = \\frac{1}{Z§} \\exp\\left(-\\frac{\|N_p - N_q\|^2}{h^2}\\right)

这里 N p N_p Np 和 N q N_q Nq 分别是以 p p p 和 q q q 为中心的图像块。

硬件实现挑战：

搜索窗口大（典型21×21）
块匹配计算量大（典型7×7块）
内存访问模式复杂

（注：NLM的详细硬件实现将在第9章专门讨论）

8.2.3 导向滤波器（Guided Filter）

导向滤波器使用引导图像来保持边缘，特别适合硬件实现：

q_i = a_k I_i + b_k, \\forall i \\in \\omega_k

其中局部线性系数通过最小化重构误差获得：

a_k = \\frac{\\frac{1}{\|\\omega\|}\\sum_{i \\in \\omega_k} I_i p_i - \\mu_k \\bar{p}_k}{\\sigma_k\^2 + \\epsilon}

b_k = \\bar{p}_k - a_k \\mu_k

硬件友好特性：

固定滤波窗口大小
规则的内存访问模式
可以使用滑动窗口优化

8.2.4 自适应中值滤波

自适应中值滤波在保持细节的同时有效去除脉冲噪声：

复制代码

算法流程:
1. 初始窗口 W_min (如3×3)
2. 计算 Z_med, Z_min, Z_max
3. 阶段A:
   if (Z_min < Z_med < Z_max):
      进入阶段B
   else:
      扩大窗口至 W_max
4. 阶段B:
   if (Z_min < Z_xy < Z_max):
      输出 Z_xy
   else:
      输出 Z_med

硬件实现考虑：

使用比较器网络实现快速中值查找
多级流水线处理不同窗口大小
使用状态机控制自适应逻辑

8.3 时域降噪技术

8.3.1 运动补偿时域滤波（MCTF）

MCTF是视频ISP中的核心降噪技术，通过多帧融合提升信噪比：

I_{denoised}\^t = \\alpha \\cdot I_{current}\^t + (1-\\alpha) \\cdot I_{ref}\^{t-1}

其中混合系数 α \alpha α 基于运动检测：

\\alpha = f(\|I_{current}\^t - MC(I_{ref}\^{t-1})\|)

运动估计策略：

块匹配： (MV = \arg\min_{(dx,dy)} \sum_{(i,j) \in Block} |I^t(i,j) - I^{t-1}(i+dx, j+dy)|)
光流法 ：基于亮度恒定假设： I ( x , y , t ) = I ( x + d x , y + d y , t + d t ) I(x,y,t) = I(x+dx, y+dy, t+dt) I(x,y,t)=I(x+dx,y+dy,t+dt)
特征点跟踪：使用Harris角点或FAST特征进行稀疏匹配

8.3.2 运动检测与自适应混合

精确的运动检测对时域降噪至关重要：

复制代码

运动检测流水线:
输入帧对 → 全局运动估计 → 局部运动细化 → 运动掩码生成
    ↓            ↓              ↓              ↓
  对齐帧    相机抖动补偿    物体边界检测    混合权重图

运动自适应混合策略：

[\alpha(x,y) = \begin{cases}

0.8-0.9 & \text{静止区域（强时域滤波）} \

0.5-0.7 & \text{慢速运动（中等滤波）} \

0.9-1.0 & \text{快速运动（弱滤波或跳过）}

\end{cases}]

8.3.3 鬼影消除技术

多帧融合中的鬼影问题及解决方案：

运动物体鬼影：检测：SAD（绝对差值和）阈值判断
处理：降低时域权重，增加空域滤波
遮挡区域处理：前向/后向一致性检查
遮挡掩码生成与区域排除
场景切换检测：

if (全局运动 > 阈值 || 直方图差异 > 阈值):
重置时域滤波器状态
使用纯空域降噪

8.3.4 递归时域滤波器设计

递归滤波器通过反馈实现无限脉冲响应（IIR）：

Y\^t = \\alpha \\cdot X\^t + (1-\\alpha) \\cdot Y\^{t-1}

硬件实现架构：

复制代码

    X_t ──→ [×α] ──→ [+] ──→ Y_t
                      ↑        ↓
           [×(1-α)] ←─ [Z^-1] ←─

稳定性考虑：

系数量化导致的极点偏移
使用饱和算术防止溢出
错误传播的限制机制

8.4 频域降噪技术

8.4.1 小波变换降噪

小波降噪利用信号和噪声在不同尺度上的特性差异：

离散小波变换（DWT）分解：

(W_{j,k} = \sum_n x $n$ \psi_{j,k} $n$ )

其中 ψ j , k \psi_{j,k} ψj,k 是尺度 j j j 位置 k k k 的小波基函数。

阈值处理策略：

软阈值 ： (\hat{W}{j,k} = \text{sign}(W{j,k}) \cdot \max(|W_{j,k}| - T, 0))
硬阈值 ： (\hat{W}{j,k} = \begin{cases} W{j,k} & |W_{j,k}| > T \ 0 & |W_{j,k}| \leq T \end{cases})

阈值选择（VisuShrink）：

(T = \sigma \sqrt{2\log N})

硬件实现的提升方案（Lifting Scheme）：

复制代码

分解步骤:
1. 分裂: 将信号分为奇偶样本
2. 预测: P(even) → odd_detail
3. 更新: U(odd_detail) → even_approx

8.4.2 DCT域降噪

DCT变换后能量集中特性适合降噪：

2D DCT变换：

(F(u,v) = C(u)C(v)\sum_{x=0}^{{N-1}\sum_{y=0}}{N-1} f(x,y)\cos\frac{(2x+1)u\pi}{2N}\cos\frac{(2y+1)v\pi}{2N})

频域滤波策略：

维纳滤波 ： (\hat{F}(u,v) = \frac{|S(u,v)|^2}{|S(u,v)|2 + |N(u,v)|^2} F(u,v))
频率自适应阈值：低频保留，高频衰减的非线性处理

8.4.3 傅里叶域滤波实现

快速傅里叶变换（FFT）在ISP中的应用：

复制代码

降噪流程:
图像块 → FFT → 频谱滤波 → IFFT → 重构图像
   ↓       ↓        ↓         ↓        ↓
8×8块   复数域   噪声抑制   实数域   块拼接

硬件优化的FFT实现：

基2 FFT蝶形运算： (X $k$ = X_{even} $k$ + W_N^k X_{odd} $k$ ) (X $k+N/2$ = X_{even} $k$ - W_N^k X_{odd} $k$ )
流水线架构：多级蝶形单元并行处理
旋转因子ROM存储
位反序地址生成器

8.5 3D降噪：空时联合滤波

8.5.1 3D双边滤波

将双边滤波扩展到时间维度：

BF3D\[I\]*{p,t} = \\frac{1}{W} \\sum*{q,\\tau} G_s(\|p-q\|) \\cdot G_t(\|t-\\tau\|) \\cdot G_r(\|I_{p,t} - I_{q,\\tau}\|) \\cdot I_{q,\\tau}

时间核设计考虑：

运动区域使用较小的时间窗口
静止区域扩大时间支持域

8.5.2 3D小波变换降噪

时空联合小波分解：

复制代码

3D-DWT分解结构:
         原始视频
            ↓
    ┌───────┴───────┐
   LLL            HLL (水平高频)
    ↓              ↓
┌───┴───┐     ┌───┴───┐
LLLL   LLLH   HLLL   HLLH
(低频) (时间) (空间) (时空高频)

各子带处理策略：

LLLL：保留（包含主要信息）
LLLH：轻度滤波（时间细节）
HLLL/LHLL：中度滤波（空间细节）
HHHH：强滤波或置零（噪声为主）

8.5.3 运动自适应3D滤波

根据运动矢量调整滤波核：

复制代码

运动自适应核形状:
静止区域:     运动区域:
  t-1 t t+1     t-1 t t+1
  ███████       ░░███░░
  ███████       ░█████░
  ███████       ░░███░░
  (强时域)      (强空域)

自适应参数计算：

(\sigma_{temporal} = \sigma_0 \cdot \exp(-\alpha \cdot MV_{magnitude}))

(\sigma_{spatial} = \sigma_0 \cdot (1 + \beta \cdot MV_{magnitude}))

8.6 自适应降噪技术

8.6.1 噪声水平估计

准确的噪声估计是自适应降噪的基础：

基于MAD的估计器 ： (\hat{\sigma} = 1.4826 \cdot MAD(W_{HH})) 其中 W H H W_{HH} WHH 是小波高频子带
基于块的估计：选择平坦区域块
计算块内方差
取最小方差作为噪声估计
基于传感器模型：根据ISO、增益、温度查表获得噪声参数

8.6.2 场景自适应策略

不同场景的降噪参数优化：

复制代码

场景分类与参数映射:
├── 低照度场景
│   ├── 噪声估计: 高
│   ├── 空域权重: 0.7
│   └── 时域权重: 0.3
├── 高速运动场景
│   ├── 噪声估计: 中
│   ├── 空域权重: 0.9
│   └── 时域权重: 0.1
└── HDR场景
    ├── 分区处理
    ├── 暗区强降噪
    └── 亮区保细节

8.6.3 内容感知降噪

基于图像内容的自适应处理：

纹理区域检测： (Texture_{measure} = \frac{\sigma_{local}}{\mu_{local} + \epsilon})
边缘保护机制：

if (gradient > edge_threshold):
减小滤波强度
使用方向性滤波
人脸/文字区域特殊处理：降低降噪强度保持细节
避免过度平滑

8.6.4 多尺度自适应框架

金字塔分解的自适应降噪：

复制代码

多尺度处理流程:
原始图像
   ↓
┌──┴──┐
L0    H0 → 细节降噪
↓
┌──┴──┐
L1    H1 → 中频降噪
↓
┌──┴──┐
L2    H2 → 低频降噪
↓
L3 (基础层)

尺度相关的降噪强度：

(\sigma_{scale}(s) = \sigma_0 \cdot 2^{-s/2})

8.6.5 硬件实现的强度控制

降噪强度的实时调节机制：

复制代码

强度控制流水线:
统计收集 → 噪声估计 → 场景分析 → 参数计算 → LUT更新
   ↓          ↓          ↓          ↓          ↓
3A统计    方差计算   运动/纹理   查表插值   系数加载

参数平滑过渡：

(Param_{t} = \alpha \cdot Param_{new} + (1-\alpha) \cdot Param_{t-1})

其中 α \alpha α 控制参数更新速度，避免突变。

本章小结

本章系统介绍了ISP降噪技术的理论基础和实现方法：

噪声建模：泊松-高斯模型准确描述传感器噪声特性，为降噪算法设计提供理论依据
空域降噪：双边滤波、NLM、导向滤波等算法在保持边缘的同时有效抑制噪声
时域降噪：运动补偿时域滤波通过多帧融合显著提升信噪比，需要精确的运动估计和鬼影消除
频域降噪：小波、DCT、FFT等变换域方法利用信号的频率特性实现高效降噪
3D降噪：空时联合滤波充分利用视频序列的时空相关性
自适应技术：基于噪声估计和场景分析的自适应处理优化不同条件下的降噪效果

关键设计权衡：

质量 vs 复杂度：高质量算法（如NLM）计算复杂度高
延迟 vs 性能：时域滤波需要帧缓存，增加系统延迟
通用性 vs 专用性：场景特定优化提升效果但降低适应性

练习题

基础题

练习8.1 ：泊松-高斯噪声模型参数估计

给定一组不同亮度下的噪声测量数据：

亮度100：噪声标准差5.2
亮度400：噪声标准差8.5
亮度900：噪声标准差11.8
亮度1600：噪声标准差15.1

请估计噪声模型 σ 2 ( I ) = α I + β \sigma^2(I) = \alpha I + \beta σ2(I)=αI+β 的参数。

提示：使用最小二乘法拟合
答案

将测量数据转换为方差：

σ 2 ( 100 ) = 27.04 \sigma^2(100) = 27.04 σ2(100)=27.04
σ 2 ( 400 ) = 72.25 \sigma^2(400) = 72.25 σ2(400)=72.25
σ 2 ( 900 ) = 139.24 \sigma^2(900) = 139.24 σ2(900)=139.24
σ 2 ( 1600 ) = 228.01 \sigma^2(1600) = 228.01 σ2(1600)=228.01

使用最小二乘法：

α = n ∑ ( I i σ i 2 ) − ∑ I i ∑ σ i 2 n ∑ I i 2 − ( ∑ I i ) 2 ≈ 0.13 \alpha = \frac{n\sum(I_i \sigma_i^2) - \sum I_i \sum \sigma_i^2}{n\sum I_i^2 - (\sum I_i)^2} \approx 0.13 α=n∑Ii2−(∑Ii)2n∑(Iiσi2)−∑Ii∑σi2≈0.13

β = ∑ σ i 2 − α ∑ I i n ≈ 14.5 \beta = \frac{\sum \sigma_i^2 - \alpha \sum I_i}{n} \approx 14.5 β=n∑σi2−α∑Ii≈14.5

因此噪声模型为： σ 2 ( I ) = 0.13 I + 14.5 \sigma^2(I) = 0.13I + 14.5 σ2(I)=0.13I+14.5

练习8.2 ：双边滤波权重计算

对于5×5双边滤波器，中心像素值为128，设 σ s = 2.0 \sigma_s = 2.0 σs=2.0， σ r = 20 \sigma_r = 20 σr=20。计算以下邻域像素的组合权重：

位置(1,1)，像素值130
位置(2,0)，像素值145
位置(2,2)，像素值125

提示：权重 = 空间权重 × 值域权重
答案

空间权重计算：

( 1 , 1 ) (1,1) (1,1): 距离 2 \sqrt{2} 2 ， w s = exp ⁡ ( − 2 / 8 ) = 0.779 w_s = \exp(-2/8) = 0.779 ws=exp(−2/8)=0.779
( 2 , 0 ) (2,0) (2,0): 距离 2 2 2， w s = exp ⁡ ( − 4 / 8 ) = 0.607 w_s = \exp(-4/8) = 0.607 ws=exp(−4/8)=0.607
( 2 , 2 ) (2,2) (2,2): 距离 2 2 2\sqrt{2} 22 ， w s = exp ⁡ ( − 8 / 8 ) = 0.368 w_s = \exp(-8/8) = 0.368 ws=exp(−8/8)=0.368

值域权重计算：

像素130: Δ = 2 \Delta = 2 Δ=2， w r = exp ⁡ ( − 4 / 800 ) = 0.995 w_r = \exp(-4/800) = 0.995 wr=exp(−4/800)=0.995
像素145: Δ = 17 \Delta = 17 Δ=17， w r = exp ⁡ ( − 289 / 800 ) = 0.697 w_r = \exp(-289/800) = 0.697 wr=exp(−289/800)=0.697
像素125: Δ = 3 \Delta = 3 Δ=3， w r = exp ⁡ ( − 9 / 800 ) = 0.989 w_r = \exp(-9/800) = 0.989 wr=exp(−9/800)=0.989

组合权重：

( 1 , 1 ) (1,1) (1,1): 0.779 × 0.995 = 0.775 0.779 \times 0.995 = 0.775 0.779×0.995=0.775
( 2 , 0 ) (2,0) (2,0): 0.607 × 0.697 = 0.423 0.607 \times 0.697 = 0.423 0.607×0.697=0.423
( 2 , 2 ) (2,2) (2,2): 0.368 × 0.989 = 0.364 0.368 \times 0.989 = 0.364 0.368×0.989=0.364

练习8.3 ：时域滤波的信噪比提升

假设单帧图像的信噪比为20dB，通过运动补偿融合N帧图像，理想情况下信噪比提升为多少？计算N=4和N=9的情况。

提示：独立噪声叠加，信号相干叠加
答案

理想情况下，N帧融合：

信号增强N倍
噪声增强 N \sqrt{N} N 倍
SNR提升 N \sqrt{N} N 倍，即 10 log ⁡ 10 ( N ) / 2 10\log_{10}(N)/2 10log10(N)/2 dB

对于初始SNR = 20dB：

N=4：SNR提升 10 log ⁡ 10 ( 4 ) / 2 = 3 10\log_{10}(4)/2 = 3 10log10(4)/2=3 dB，最终SNR = 23dB
N=9：SNR提升 10 log ⁡ 10 ( 9 ) / 2 = 4.77 10\log_{10}(9)/2 = 4.77 10log10(9)/2=4.77 dB，最终SNR = 24.77dB

实际应用中由于运动估计误差，提升效果会降低。

挑战题

练习8.4 ：NLM算法复杂度分析

对于M×N图像，搜索窗口大小为(2R+1)×(2R+1)，块大小为(2r+1)×(2r+1)，分析NLM算法的计算复杂度。如果要将复杂度降低一个数量级，可以采用哪些优化策略？

提示：考虑预筛选、快速块匹配、降采样等方法
答案

基础NLM复杂度：

每个像素需要搜索 ( 2 R + 1 ) 2 (2R+1)^2 (2R+1)2个位置
每次块匹配需要 ( 2 r + 1 ) 2 (2r+1)^2 (2r+1)2次运算
总复杂度： O ( M N ⋅ ( 2 R + 1 ) 2 ⋅ ( 2 r + 1 ) 2 ) O(MN \cdot (2R+1)^2 \cdot (2r+1)^2) O(MN⋅(2R+1)2⋅(2r+1)2)

对于典型参数R=10, r=3：

复杂度为 O ( M N ⋅ 441 ⋅ 49 ) = O ( 21609 ⋅ M N ) O(MN \cdot 441 \cdot 49) = O(21609 \cdot MN) O(MN⋅441⋅49)=O(21609⋅MN)

优化策略：

预筛选：使用单点或小块快速排除不相似区域，减少70-80%计算
积分图像 ：块差值计算从 O ( r 2 ) O(r^2) O(r2)降至 O ( 1 ) O(1) O(1)
降采样搜索：在低分辨率找候选，高分辨率细化
PCA降维：将块投影到主成分空间，降低匹配维度
GPU并行化：虽不降低复杂度，但显著提升吞吐量

组合优化可实现10倍以上加速。

练习8.5 ：多尺度降噪的内存需求分析

设计一个3级小波降噪系统，输入图像1920×1080，每像素12位。计算：

各级分解的内存需求
使用原位（in-place）计算的最小内存
流水线处理的line buffer需求

提示：考虑小波系数的数据范围扩展
答案

各级分解内存需求：
- Level 0: 1920×1080×12bit = 3.0MB
- Level 1: 960×540×16bit = 1.0MB (系数扩展到16bit)
- Level 2: 480×270×16bit = 0.25MB
- Level 3: 240×135×16bit = 0.063MB
- 总计：约4.3MB
原位计算最小内存：
- 重用输入缓冲区存储LL子带
- 需要额外存储：HL, LH, HH子带
- 最小内存：3.0MB + 0.75MB(高频) = 3.75MB
Line buffer需求（5-tap滤波器）：
- 水平滤波：5行×1920×12bit = 14.4KB
- 垂直滤波：5行×960×16bit = 9.6KB
- 总计：约24KB line buffer

流水线实现可将内存需求从MB级降至KB级。

练习8.6 ：自适应降噪的参数调度设计

设计一个自适应降噪系统，需要根据以下输入动态调整参数：

ISO范围：100-12800
运动程度：0-255
场景亮度：0-255

设计参数映射函数和切换策略，避免视觉抖动。

提示：考虑参数量化、平滑过渡、迟滞控制
答案

参数映射设计：

ISO到噪声强度映射：

复制代码

noise_level = min(255, 10 + 2.0 * log2(ISO/100))
量化到32级，每级对应不同滤波强度

三维查找表：

复制代码

LUT[iso_idx][motion_idx][brightness_idx] = {
    spatial_weight,    // 0.0-1.0
    temporal_weight,   // 0.0-1.0
    filter_strength    // 0-255
}

平滑过渡策略：

复制代码

// IIR滤波防止突变
param_smooth = 0.9 * param_old + 0.1 * param_new

// 迟滞控制防止抖动
if (abs(param_new - param_current) &lt; threshold)
    保持当前参数

场景切换检测：

复制代码

if (场景切换检测):
    立即更新参数（不平滑）
    重置时域滤波器状态

参数调度时序：
- 每帧统计：3A信息、运动检测
- 每8帧更新：查表获得新参数
- 每帧应用：平滑后的参数

这种设计确保参数调整平滑且响应及时。

练习8.7 ：降噪算法的硬件资源估算

为1080p@60fps视频ISP设计降噪模块，要求：

空域：5×5双边滤波
时域：3帧MCTF
像素时钟：150MHz

估算所需的：乘法器数量、片上SRAM大小、DDR带宽。

提示：考虑并行度、流水线深度、数据重用
答案

时序分析：

像素吞吐：1920×1080×60 = 124.4M pixels/s
时钟频率：150MHz
每时钟处理：1像素（全流水线）

空域滤波资源：

5×5窗口：25个像素并行访问
双边权重：25个乘法器（权重计算）
加权求和：25个乘法器 + 24个加法器
总计：约50个乘法器

时域滤波资源：

运动估计：16×16块匹配，需要256个减法器和累加器
运动补偿：双线性插值，4个乘法器
帧混合：2个乘法器
总计：约6个乘法器（运动估计可复用空域资源）

SRAM需求：

Line buffer：5行×1920×12bit = 14.4KB
块匹配缓存：32×32×12bit×2 = 3KB
参数/LUT：约4KB
总计：约22KB SRAM

DDR带宽：

读取当前帧：124.4M × 1.5B = 186.6MB/s
读取参考帧：124.4M × 1.5B × 2 = 373.2MB/s
写入结果：124.4M × 1.5B = 186.6MB/s
总计：约750MB/s（考虑突发效率，实际需要约1GB/s）

常见陷阱与错误（Gotchas）

1. 噪声建模错误

陷阱：假设噪声是纯高斯白噪声
后果：降噪算法对信号相关噪声效果差
解决：使用泊松-高斯模型，考虑信号依赖性

2. 过度降噪

陷阱：一味追求低噪声，忽视细节保持
后果：图像过度平滑，丢失纹理细节
解决：使用客观指标（PSNR）和主观评价结合

3. 边界处理不当

陷阱：滤波窗口越界时简单填充
后果：图像边缘出现伪影
解决：使用镜像、复制或自适应边界处理

4. 定点量化溢出

陷阱：中间计算结果超出数据范围
后果：出现截断噪声或环绕错误
解决：仔细分析数据范围，使用饱和算术

5. 时域滤波鬼影

陷阱：盲目进行多帧融合
后果：运动物体出现鬼影、拖尾
解决：精确运动检测，自适应混合权重

6. 参数突变

陷阱：降噪参数随场景快速切换
后果：视觉闪烁、呼吸效应
解决：参数平滑过渡，迟滞控制

7. 色度噪声忽视

陷阱：只处理亮度噪声
后果：彩色噪点明显，特别是暗部
解决：YUV空间分别处理，色度通道强降噪

最佳实践检查清单

算法选择

根据噪声特性选择合适的降噪算法
评估算法复杂度与硬件资源匹配度
考虑实时性要求（延迟、吞吐量）
平衡降噪效果与细节保持

参数优化

建立噪声模型，准确估计噪声水平
设计自适应参数调整策略
实现参数平滑过渡机制
针对典型场景优化参数集

硬件实现

优化内存访问模式，提高数据重用率
合理设计流水线深度和并行度
采用定点算术，注意动态范围
实现资源共享和复用

质量保证

建立完整的测试场景库
使用客观指标（PSNR、SSIM）评估
进行主观质量评价
验证极端条件（高ISO、快速运动）

系统集成

与其他ISP模块协调（去马赛克、锐化）
考虑3A算法的交互影响
优化整体流水线延迟
实现优雅的降级策略

调试验证

添加调试模式，可单独启用/禁用模块
实现中间结果输出接口
记录关键统计信息
支持A/B对比测试