在非均匀相机抖动去模糊中用IMU辅助的精确模糊核重新估计【文献分析】

文献名称：IMU-Assisted Accurate Blur Kernel Re-Eestimation in Non-Uniform Camera Shake Deblurring

文献链接：https://dl.acm.org/doi/10.1109/TIP.2024.3411819

开源地址：https://github.com/Robot-Nav

一、关键科学问题与技术挑战

1.1 研究背景与问题定位

相机抖动导致的图像模糊是计算机视觉领域中一个长期存在的核心难题。当相机在曝光期间发生运动时，所采集的图像会出现模糊退化，严重影响图像的视觉质量与可解释性。本文聚焦于非均匀盲去模糊这一更具挑战性的子问题------由于相机在曝光过程中的运动轨迹复杂且随空间位置变化，模糊效应在图像的不同区域呈现出明显的差异性，无法用一个全局统一的模糊核来描述。

1.2 核心科学问题

本文要解决的关键技术挑战体现在以下两个层面：

（1）非均匀模糊核的精确估计问题

在非均匀盲去模糊的典型解决方案------分块处理框架中，图像被划分为多个局部小块，并在局部均匀性假设下对各小块分别估计其模糊核。然而，当某个图像小块缺乏足够的纹理细节时，基于纯图像信息的模糊核估计算法容易产生较大的估计偏差，导致该小块获得"劣化估计的模糊核"。这种劣化核如果直接用于后续的反卷积重建，会在最终去模糊结果中引入明显的伪影和残余模糊。

（2）模糊核之间非线性关系的高效描述问题

现有分块非均匀去模糊算法在处理劣化核时，通常利用邻近小块中"良好估计的模糊核"来辅助劣化核的重估计，其核心在于建立不同位置模糊核之间的变换关系模型。然而，已有方法多采用平均值模型 或仿射变换模型 来描述这种关系，这些线性模型过于简化，难以有效捕捉不同位置模糊核之间复杂的非线性变换关系------尤其当相机的非均匀运动较为剧烈时，线性模型的表达能力严重不足。

1.3 核心解决思路

本文的核心洞察在于：惯性测量单元能够提供相机在曝光期间的连续运动数据，这些数据在不同像素坐标上的投影轨迹天然构成了各位置模糊核的"形状特征"或"地标信息"。由此可推得不同模糊核之间的精确变换关系。

具体而言，本文提出了一种IMU辅助的劣化模糊核重估计方法，其核心目标可以表述为：

利用IMU运动数据建立不同图像小块模糊核之间的非线性变换关系模型，进而将该模型引入优化问题中，以重估计劣化模糊核。

这一思路将"硬"的物理传感器数据（IMU）与"软"的图像先验相结合，为分块非均匀去模糊中的核重估计问题提供了一条全新的解决路径。

二、研究方法与算法原理

2.1 算法整体流程概览

本文提出的算法整体呈三阶段流水线架构：

算法架构：

第一阶段：局部模糊核初始化估计

将输入模糊图像划分为若干重叠的图像小块（patch），假设每个小块内的模糊是局部均匀的，采用均匀盲去模糊算法（具体采用 $24$ 的算法------基于超拉普拉斯先验的盲去卷积方法）对各小块分别估计其模糊核。此阶段得到的模糊核集合包括"良好估计的核"与"劣化估计的核"两类。

第二阶段：IMU辅助的劣化核重估计

这是本文的核心创新所在，包含三个子步骤：

子步骤一（Section III-B）：IMU驱动的模糊核变换建模------利用IMU陀螺仪数据计算相机的旋转运动，通过单应矩阵将运动数据投影到图像平面上，获得各像素位置对应的IMU模糊核，并基于这些IMU核的"地标点"建立薄板样条非线性变换模型。
子步骤二（Section III-C）：劣化模糊核的识别------基于稀疏性、与IMU核的相似性、形状细长度三项判据，自动识别出初次估计中质量较差的模糊核。
子步骤三（Section III-D）：劣化模糊核的优化重估计------将步骤一建立的TPS变换关系作为正则化约束项，构造优化目标函数，利用邻近良好估计核的TPS变换结果来引导劣化核的重新估计。

第三阶段：最终去模糊与图像融合

利用经重估计后获得的各小块最终模糊核，基于 $24$ 的反卷积算法对各小块进行去模糊处理，最后采用 $45$ 的图像融合技术将各小块拼接为完整的清晰输出图像。

整体流程可用如下概念框图表示：

复制代码

输入模糊图像 → 分块处理 → 均匀盲去模糊(初始核估计)
                              ↓
                    良好估计核 ← 劣化核识别 → 劣化估计核
         (含IMU核地标信息)                         ↓
                              ↓            IMU驱动的TPS建模
                       邻域良好核的TPS变换 ────→ 构建优化目标
                                                  ↓
                                             重估计劣化核
                                                  ↓
                             最终清晰图像 ← 分块反卷积与融合

2.2 IMU辅助的模糊核变换建模

（1）运动建模与简化假设

相机运动包含三轴平移向量 t= $tx,ty,tz$ T\mathbf{t} = $t_x, t_y, t_z$ ^Tt= $tx,ty,tz$ T 与三轴旋转向量 ω= $ωx,ωy,ωz$ T\boldsymbol{\omega} = $\\omega_x, \\omega_y, \\omega_z$ ^Tω= $ωx,ωy,ωz$ T。真实场景中的点到图像平面的投影可用一个单应矩阵描述：

H(t,ω)=EK(R(ω)+tnTl)EK−1,\mathbf{H}(\mathbf{t}, \boldsymbol{\omega}) = \mathbf{E}_K \left( \mathbf{R}(\boldsymbol{\omega}) + \frac{\mathbf{t} \mathbf{n}^T}{l} \right) \mathbf{E}_K^{-1},H(t,ω)=EK(R(ω)+ltnT)EK−1,

其中 EK\mathbf{E}_KEK 为相机内参矩阵，lll 为场景深度，n\mathbf{n}n 为场景法向量，R(ω)\mathbf{R}(\boldsymbol{\omega})R(ω) 为旋转矩阵。

参考Whyte等人的研究，在手持有相机拍摄的情境下，旋转运动是造成图像模糊的主导因素。要实现同等程度的模糊，所需的平移运动量远大于旋转运动量。因此，可以将单应矩阵简化，忽略平移项：

H(ω)=EKR(ω)EK−1.\mathbf{H}(\boldsymbol{\omega}) = \mathbf{E}_K \mathbf{R}(\boldsymbol{\omega}) \mathbf{E}_K^{-1}.H(ω)=EKR(ω)EK−1.

这一简化不仅合理，还具有实际工程价值------智能手机的陀螺仪可直接提供三轴旋转角速度的积分数据，而加速度计的加速度数据受重力干扰严重且需二次积分得到平移，噪声会被显著放大导致核估计不准确。

（2）IMU模糊核的生成

在曝光期间，IMU陀螺仪进行多次采样，记录相机在各时刻的姿态。通过初始化 ω0= $0,0,0$ T\boldsymbol{\omega}_0 = $0,0,0$ ^Tω0= $0,0,0$ T 并积分陀螺仪数据，可获得旋转运动的离散序列 ω0,ω1,ω2,...,ωm\boldsymbol{\omega}_0, \boldsymbol{\omega}_1, \boldsymbol{\omega}_2, \ldots, \boldsymbol{\omega}_mω0,ω1,ω2,...,ωm，其中 mmm 为采样次数。

将此序列代入 H(ω)\mathbf{H}(\boldsymbol{\omega})H(ω)，得到对应的单应矩阵序列 {H(ω0),H(ω1),...,H(ωm)}\{\mathbf{H}(\boldsymbol{\omega}_0), \mathbf{H}(\boldsymbol{\omega}_1), \ldots, \mathbf{H}(\boldsymbol{\omega}_m)\}{H(ω0),H(ω1),...,H(ωm)}。对于图像中任意像素位置 p\mathbf{p}p，用这些单应矩阵逐次对其进行变换，得到运动轨迹上的像素位置序列 {p0,p1,p2,...,pm}\{\mathbf{p}_0, \mathbf{p}_1, \mathbf{p}_2, \ldots, \mathbf{p}_m\}{p0,p1,p2,...,pm}。将这些点依序连接，即可形成该像素点的IMU模糊核，其形状特征直接反映了相机旋转运动在该位置上的投影形态。

这些IMU核作为"硬"的物理观测信息，虽受IMU自身噪声和漂移影响而不足以直接用于高精度去模糊，但其形状地标信息为描述不同位置模糊核之间的非线性变换关系提供了关键依据。

（3）薄板样条非线性变换模型

本文采用薄板样条模型来表征不同位置模糊核之间的非线性变换关系。薄板样条是一种基于弹性金属薄板弯曲物理类比推导出的非刚性图像形变方法，能够最小化"弯曲能量"，可实现对二维点集的平滑非刚体配准。

薄板样条的变换公式为：

x′=b1,x+b2,xx+b3,xy+∑iwi,xU(dE((x,y),(xi,yi))),y′=b1,y+b2,yx+b3,yy+∑iwi,yU(dE((x,y),(xi,yi))), \begin{aligned} x' &= b_{1,x} + b_{2,x} x + b_{3,x} y + \sum_i w_{i,x} U\left(d_E((x,y),(x_i,y_i))\right), \\ y' &= b_{1,y} + b_{2,y} x + b_{3,y} y + \sum_i w_{i,y} U\left(d_E((x,y),(x_i,y_i))\right), \end{aligned} x′y′=b1,x+b2,xx+b3,xy+i∑wi,xU(dE((x,y),(xi,yi))),=b1,y+b2,yx+b3,yy+i∑wi,yU(dE((x,y),(xi,yi))),

其中 (xi,yi)(x_i, y_i)(xi,yi) 为地标点（控制点）坐标，bi,xb_{i,x}bi,x 和 bi,yb_{i,y}bi,y 为仿射变形参数，wi,xw_{i,x}wi,x 和 wi,yw_{i,y}wi,y 为各控制点的影响权重，dEd_EdE 为欧氏距离，U(r)U(r)U(r) 为径向基函数：

U(r)={r2log⁡r2,r≠00,r=0.U(r) = \begin{cases} r^2 \log r^2, & r \neq 0 \\ 0, & r = 0 \end{cases}.U(r)={r2logr2,0,r=0r=0.

与平均值模型和仿射模型相比，TPS模型具有显著优势：平均值模型对图像的变形没有建模能力，仿射模型只能处理整体线性变形（保直线性），而TPS作为一种非线性变换模型，能够描述弯曲和局部形变，更适合表征因相机旋转投影引起的复杂、非刚体性的模糊核变换关系。

在本文的应用中，地标点是从IMU模糊核中提取的特征点------每个IMU核的形状轨迹上的关键采样点。通过建立源图像小块与目标图像小块中IMU核的对应地标点对，即可计算出两者之间的TPS变换参数。这个IMU辅助的TPS变换将作为核心约束，用于指导劣化模糊核的优化重估计。

2.3 劣化模糊核的识别与重估计

（1）三维度联合判据的劣化核识别

在分块去模糊中，准确识别出哪些小块获得了劣化的模糊核是整个重估计过程的前提。本文识别标准融合了以往工作的经验与IMU数据的特有信息，提出三项必须同时满足的判据：

判据一（稀疏性约束） ：良好估计的模糊核应该是稀疏的------其非零支撑区的像素密度较低。对于大小为 sk×sksk \times sksk×sk 的模糊核，定义密度指标 D=Ns/(sk×sk)D = N_s / (sk \times sk)D=Ns/(sk×sk)，其中 NsN_sNs 为非零像素数。若 D>0.5D > 0.5D>0.5，判定该核为劣化估计核（过于弥散，不符合真实运动模糊核的形态特征）。
判据二（与IMU核的相似性约束） ：良好估计的模糊核应与IMU运动数据计算得到的模糊核在形状上具有一定相似度。本文采用图像欧氏距离度量两核之间的差异，该度量同时考虑像素强度差异与空间分布信息，比传统像素级度量具有更高的感知准确性。
判据三（形状细长度约束）：真实运动模糊核的形状通常呈现出近似线状的细长结构（对应相机运动轨迹），而不是块状或圆形扩散形态。本文据此新增了这一形状先验判据。

仅需任一判据不满足，该核即被标记为"劣化估计核"，进入下一步的重估计流程。

（2）基于优化问题的劣化核重估计

对于被标记为劣化估计的模糊核，本文构造了一个优化问题，通过融合以下两方面的信息来获得更准确的核：

信息源一（来自图像先验的初始估计） ：劣化核的初始估计值 ki(0)\mathbf{k}_i^{(0)}ki(0)（尽管不够精确，但仍包含有效信息）。
信息源二（来自邻近良好核的TPS预测） ：利用IMU数据预先计算好的TPS变换参数，将邻近小块中的良好估计核 kj\mathbf{k}_jkj 通过TPS变换映射到当前小块的位置，得到预测核 Φ(kj)\Phi(\mathbf{k}_j)Φ(kj)。

最终的劣化核重估计通过求解一个包含数据保真项（使结果接近初始估计）和正则化项（使结果接近TPS预测值）的优化问题实现：

min⁡k∥y−x∗k∥2+λ1∥k−k(0)∥2+λ2∑j∈N∥k−Φj(kj)∥2,\min_{\mathbf{k}} \|\mathbf{y} - \mathbf{x} * \mathbf{k}\|^2 + \lambda_1 \|\mathbf{k} - \mathbf{k}^{(0)}\|^2 + \lambda_2 \sum_{j \in \mathcal{N}} \|\mathbf{k} - \Phi_j(\mathbf{k}_j)\|^2,kmin∥y−x∗k∥2+λ1∥k−k(0)∥2+λ2j∈N∑∥k−Φj(kj)∥2,

其中 y\mathbf{y}y 为观测到的模糊图像，x\mathbf{x}x 为潜像，N\mathcal{N}N 为邻近小块集合，Φj(⋅)\Phi_j(\cdot)Φj(⋅) 表示从第 jjj 个小块到当前小块的TPS变换算子。通过交替优化策略迭代求解该目标函数，直至收敛获得最终的重估计核。

2.4 实验设计与数据集

（1）自建IMU-模糊图像数据集

为验证算法在真实场景下的有效性，本文构建了一个包含真实世界非均匀运动模糊图像及其对应IMU运动数据的数据集，采集条件涵盖了多种拍摄环境与相机运动模式。

（2）对比实验设置

本文分别从定性视觉效果与定量评价指标两个维度进行对比分析。定量评价包括：

PSNR：衡量去模糊结果与参考图像之间的峰值信噪比
SSIM：衡量去模糊结果与参考图像之间的结构相似性

对比对象包括：

现有非均匀去模糊算法（如基于平均值模型的方法、基于仿射变换模型的方法）
现有IMU辅助的去模糊算法
部分主流深度学习方法

（3）消融实验

本文还设计了消融实验以验证各模块的贡献：

对比"使用TPS模型"与"使用平均值/仿射模型"的差异
对比"有IMU辅助"与"无IMU辅助"的差异
对比不同判据组合下劣化核识别准确率的差异

三、主要创新点与学术贡献

3.1 创新点一：将IMU引入劣化模糊核重估计

本文首次将惯性测量单元（IMU）的运动数据引入到分块非均匀去模糊中的核重估计 环节。不同于已有IMU辅助去模糊方法------要么直接利用IMU数据计算模糊核进行非盲反卷积（受IMU固有噪声和漂移影响严重），要么将IMU信息作为图像去模糊的辅助约束------本文提出了一种新颖的双阶段融合策略：初始阶段仍利用图像先验进行盲估计，仅在重估计阶段引入IMU辅助约束。这种设计既保留了对纯图像先验的利用，又有效规避了IMU数据直接替代核估计时"一步错步步错"的风险，实现了鲁棒性与精确性的平衡。

3.2 创新点二：基于IMU地标的非线性TPS变换建模

本文建立了薄板样条非线性变换模型 来描述不同位置模糊核之间的变换关系，相较于现有方法中普遍采用的平均值模型 （局部平滑假设）和仿射变换模型（线性全局变形假设），TPS模型通过IMU模糊核提取的"地标点"进行非刚性配准，能够更精确地描述相机旋转投影引起的复杂非线性变形关系。实验数据表明，采用非线性模型后，劣化核重估计的精度显著优于线性模型。

3.3 创新点三：三维度联合判据的劣化核识别

本文在现有基于稀疏性和邻域相似性的判据基础上，新增了与IMU核相似性 以及形状细长度两项判据，构建了一个更全面、更鲁棒的劣化核识别机制。这使得在纹理稀疏、运动复杂等多种挑战性场景下，算法对劣化核的定位更加准确，为后续的重估计奠定了可靠基础。

3.4 创新点四：端到端的算法集成与新数据集构建

本文将上述核重估计方法有机整合进一个完整的分块非均匀去模糊流程中，各模块之间形成了有效的协同工作机制。同时，本文收集并公开了一个包含真实世界非均匀运动模糊图像及其对应IMU运动数据的新数据集，为后续研究工作提供了宝贵的实验基准。

3.5 贡献总结

本文的整体贡献可概括为以下四点：

提出了一种IMU辅助的模糊核重估计方法：利用IMU运动数据建立非线性变换模型，通过优化问题重估计劣化模糊核，显著提升了核估计精度。
引入了基于薄板样条的非线性变换模型：以IMU模糊核的"地标点"作为控制点，实现对不同模糊核之间复杂非线性关系的精准建模。
构建了一个真实世界的IMU-模糊图像数据集：涵盖多种拍摄场景与相机运动模式，为方法的全面评估提供了可靠基准。
通过实验验证了方法的有效性：在自建数据集和公开数据集上的定量与定性实验结果均表明，本文方法在PSNR、SSIM等指标上优于现有方法。