中科大数字图像分析期末复习汇总

总结

第一章图像数字化

1. 2D0距离变换。1)请简要猫述距出变换的基本操作和用这;2)请基于如下左图模板，基于中间图像的距离变换初始化，将最终变换结果填到右图中。

结合您提供的课件图片及中科大期末考试的答题规范，这道题（8分）的解答如下：

第一问：简要描述距离变换的基本操作和用途。

基本操作 ：距离变换是把二值图像转换为灰度图像 的过程。给定一个点集 P P P 以及一个子集 B B B（例如背景点），对于区域 P P P 中的每一个点 p p p，计算它到子集 (B) 中最近点 的距离。数学定义为： D T ( p ) = min ⁡ q ∈ B { d ( p , q ) } DT(p) = \min_{q \in B} \{ d(p,q) \} DT(p)=minq∈B{d(p,q)}。

主要用途 ：常用于倒角距离匹配（Chamfer Distance 形状匹配）、图像骨架提取、细化算法、路径规划以及图像分割中的距离度量等。

第二问：请基于左图模板及中间图的初始化，将最终变换结果填到右图中。

根据给出的模板，这是一个经典的 3-4 倒角距离变换。

模板含义 ：像素在水平或垂直方向移动一步，代价为 3 ；在对角线方向移动一步，代价为 4。
初始状态：中间图像中有两个"0"像素，对应右图里应当填充的位置（即原距离为0的种子点）。
最终结果：从这两个"0"点出发，按模板规则向外传播，取最小代价。右图每个格子应填入的数值如下矩阵所示：

text 复制代码

12  11  10   9  10  11  12
11   8   7   6   7   8  11
10   7   4   3   4   7  10
 9   6   3   0   3   6   9
 9   6   3   0   3   6   9
10   7   4   3   4   7  10
11   8   7   6   7   8  11
12  11  10   9  10  11  12

(注：考试时，直接将上述 7×7 的矩阵数值填入右图的对应方格中即可得满分。计算原理就是对每个格子寻找经过水平/垂直加3、斜向加4后的最小累加和。)

第二章图像变化和形态学

1.说明连通悖论：

第一问：根据下面两个图说明连通悖论，即8连通和4连通的图，解释一下；

第二问：如何解决连通悖论；解决办法如ppt所示；

第一问：说明连通悖论

连通悖论是指在对图像区域进行连通性定义时，无论统一采用4-连通还是8-连通，都会产生矛盾：

如左图所示：若轮廓点采用8-连通定义，虽然能形成封闭轮廓，但该"封闭"轮廓所包围的内部区域与外部区域仍然会通过对角点产生连通（内部与外部未被真正隔离）。

如右图所示：若轮廓点采用4-连通定义，虽然轮廓自身没有交叉且能隔开内外，但会导致原本完整的内部区域被分割成两个独立的4-连通区域（内部区域被割裂）。

第二问：解决办法

解决该悖论的方法是：区域的轮廓点和内/外部点要采用不同的连通性来定义，具体分为两种情况：

内/外部点按8-方向连通定义，则轮廓按4-方向连通；

内/外部点按4-方向连通定义，则轮廓按8-方向连通。

2.给定2-D离散余弦变换，说明可分离性，对称性，以及正交性；

可分离性

正反变换核均可分解为行、列两个方向的一维变换核的乘积。计算时可先对行进行一维DCT，再对列进行一维DCT（顺序可互换），以此将二维运算降维成一维运算，极大地降低了计算复杂度。
对称性

变换核在行、列方向上的基函数形式完全一致，且变换矩阵为对称矩阵。因此正、逆变换的核函数相同（正变换矩阵的转置即为逆变换矩阵），便于硬件实现和代码复用。
正交性

DCT的变换矩阵是正交矩阵。该特性保证了变换是能量守恒的，不会产生变换失真；同时说明逆变换矩阵就是正变换矩阵的转置，可确保图像经正逆变换后能够实现精确无损恢复。

3. 二值形态学，跟往年考的一样：考的是噪声滤除：

4. 图像2DDFT变换及其基本性质。设(x》和1,(xy)的离散傅里叶支换为F(1,和E(4)，请给出如下函数的伴里叶变换结果。

设 (f_1(x,y)) 和 (f_2(x,y)) 的离散傅里叶变换分别为 (F_1(u,v)) 和 (F_2(u,v))，给出如下函数的傅里叶变换结果：

1) 线性： (f_1(x,y) + f_2(x,y))

正确答案： F 1 ( u , v ) + F 2 ( u , v ) F_1(u,v) + F_2(u,v) F1(u,v)+F2(u,v)

2) 比例（缩放）： (f_1(ax, by))

正确答案： 1 a b F 1 ( u a , v b ) \frac{1}{ab} F_1\left(\frac{u}{a}, \frac{v}{b}\right) ab1F1(au,bv)

3) 平移： (f_1(x-a, y-b))

正确答案： e − j 2 π ( a u + b v ) F 1 ( u , v ) e^{-j2\pi(au+bv)} F_1(u, v) e−j2π(au+bv)F1(u,v)

4) 卷积： (f_1(x,y) * f_2(x,y))

正确答案： F 1 ( u , v ) ⋅ F 2 ( u , v ) F_1(u,v) \cdot F_2(u,v) F1(u,v)⋅F2(u,v)

5) 旋转： (f_1(x\cos\theta + y\sin\theta, -x\sin\theta + y\cos\theta))

正确答案： F 1 ( u cos ⁡ θ + v sin ⁡ θ , − u sin ⁡ θ + v cos ⁡ θ ) F_1(u\cos\theta + v\sin\theta, -u\sin\theta + v\cos\theta) F1(ucosθ+vsinθ,−usinθ+vcosθ)

5. 请设计一种二位形态学算法，将左图灰色边界包围的区城进行填充，以得到右图结果。

第三章. 图像增强与恢复

1. 第一问：什么是直方图；第二问：都有哪些能够表征图像的直方图，并说出他们的物理意义。

第一问：什么是直方图？

灰度直方图是关于灰度级的函数，它表示数字图像中每一灰度级与该灰度级出现的频数之间的对应关系。

第二问：能够表征图像的直方图及其物理意义：

原始灰度直方图

物理意义：反映图像灰度级的整体分布状况。可用于评价图像对比度（直方图过窄说明对比度低，覆盖广且均匀说明对比度高），并且相同的直方图可对应不同的图像。

均衡化后的直方图

物理意义：将原始图像的灰度直方图变换为均匀分布。通过自动拉伸灰度级，达到自动增强整幅图像对比度的目的，使像素占据整个灰度级范围。

规定化（匹配）后的直方图

物理意义：将原始直方图按照指定的目标直方图进行映射。区别于自动的均衡化，它可以有选择地增强图像特定的灰度级（如增强特定目标与背景的对比），属于非均匀分布的针对性增强。

2.灰度图像在反色变换情况下，灰度直方图，LBP，SIFT的四个是否变换，若变，请说出怎么变化？

灰度直方图变，LBP不变，SIFT中特征变换如下图所示：

结合课件内容及考试简答题的规范，整理答案如下：

针对 反色变换（(f(I)=255-I)），这几个特征的变化如下：

① 灰度直方图

变化。
怎么变 ：图像所有像素灰度值由 (I) 变为 (255-I)，直方图沿灰度轴发生左右镜像翻转（即原图中灰度为 (k) 的像素数量，变成新直方图中灰度为 (255-k) 的像素数量）。

② LBP（局部二值模式）

变化。（纠正之前的回答）
怎么变：由于反色后 (I'_p = 255-I_p)，(I'_c = 255-I_c)，邻域与中心像素的相对大小完全反转（(I'_p - I'_c = -(I_p - I_c))）。
结论：原本大于等于中心像素的邻域（标记为 1）会变成小于中心像素（标记为 0），反之亦然。因此，LBP 的 8 位二进制码会变为原码的"按位取反"（若采用等价模式，其编码值也相应发生取反变化）。

③ SIFT 特征

变化。
怎么变 （结合 PPT 与严谨数学推导）：
1. 数量、关键点位置、特征尺度 ：不变。
2. 主方向 ：相差 180 度。图像反色会使所有像素的梯度向量反转。
3. 128D 描述子 ：
  - 空间排列（16个格子） ：PPT 配图展示的是 16 个格子的排列顺序颠倒（1~16 变成 16~1）。请注意，PPT 这里的配图其实属于图像"空间旋转 180 度"的情况，而非单纯的强度反色 （单纯反色不会让局部块的空间位置倒过来）。但在考试作答时，建议按照 PPT 给的结论来写，即"16 个格子排列顺序颠倒"。
  - 每个格子的 8 维梯度直方图 ：由于梯度方向反色后整体旋转 180 度，每个格子内的 8 维直方图也会发生循环移位（对应 8 个方向桶的相邻 4 个桶互换）。

第四章深度学习基础

1，给定滤波器w，函数f(x, y)，第一问：说明空间相关和卷积的公式，以及他们在什么情况下结果相等。第二问：说明卷积神经网络中的卷积和空域滤波的卷积操作的异同。

第一问：相关和卷积的公式，以及结果相等的条件

公式说明 ：
- 相关运算 ： g ( x , y ) = ∑ s = − a a ∑ t = − b b w ( s , t ) f ( x + s , y + t ) g(x, y) = \sum_{s=-a}^{a}\sum_{t=-b}^{b}w(s,t)f(x+s, y+t) g(x,y)=∑s=−aa∑t=−bbw(s,t)f(x+s,y+t)
- 卷积运算 ： g ( x , y ) = ∑ s = − a a ∑ t = − b b w ( s , t ) f ( x − s , y − t ) g(x, y) = \sum_{s=-a}^{a}\sum_{t=-b}^{b}w(s,t)f(x-s, y-t) g(x,y)=∑s=−aa∑t=−bbw(s,t)f(x−s,y−t)
- （注：两者区别在于卷积运算需将滤波器 (w) 进行180度翻转）
结果相等的条件 ：当滤波器模板 (w(s,t)) 为对称滤波器时（即满足 (w(s,t) = w(-s,-t))），空间相关与卷积的结果相等。

第二问：CNN卷积核与图像空域滤波卷积操作的异同

相同点：
- 数学本质一致 ：两者本质上都是局部邻域的加权求和（乘积求和操作）。
- 局部连接性：都基于滑动窗口，仅在像素的局部邻域范围内进行计算。
不同点：
- 翻转操作（最关键） ：传统空域滤波严格遵循卷积定义，需要将核旋转180度 后再进行加权；而CNN中的"卷积层"实际上执行的是"互相关"操作，不进行核翻转（因为核参数是靠数据学习的，是否旋转对最终结果无影响）。
- 参数来源 ：传统空域滤波的核参数是人工预设固定的 （如平滑、锐化算子）；CNN的卷积核是通过反向传播算法（BP）训练学习得到的最优参数。

图像表达（算子）

1.简述Canny算子的边缘检测步骤：

7. 图像识别

1，霍夫变换，说明如果灰度图像空间下有很多条直线，如何检测？写下思路

核心思想（点-线对偶性）

基于直线极坐标方程 (\lambda = x\cos\theta + y\sin\theta)，将图像空间中的每一个点映射为参数空间（霍夫空间）中的一条正弦曲线。利用对偶性，将图像中"检测共线点"的问题转化为参数空间中"寻找曲线交点（峰值）"的问题。

检测思路与步骤：

边缘检测：首先对灰度图像进行边缘提取（如Canny算子），得到二值化的边缘点集合。
参数空间量化：构建以 ((\theta, \lambda)) 为坐标的二维累加器阵列（霍夫表），根据图像尺寸设置 (\theta) 和 (\lambda) 的取值范围。
投票累加 ：遍历所有边缘点 ((x_i, y_i))，代入极坐标方程 λ = x i cos ⁡ θ + y i sin ⁡ θ \lambda = x_i\cos\theta + y_i\sin\theta λ=xicosθ+yisinθ，遍历所有可能的 (\theta) 值，计算对应的 (\lambda)，并在累加器相应位置进行"投票"加一。
寻找峰值 ：扫描累加器阵列，找到局部极大值（峰值）。通过设置合适的阈值过滤掉伪直线，并对局部峰值进行非极大值抑制。
提取与绘制：累加器中的峰值点 ((\theta, \lambda)) 即对应图像空间中检测出的直线的参数，根据这些参数在原图上绘制出多条直线。

第八章概率图模型

1，条件随机场，基于维特比算法，计算最大的输出序列。跟ppt如下图的上的例子差不多，改了随机矩阵的数字。

第九章运动分析

1，推到光流方程，并说明二义性:

即假设在恒定亮度条件下，泰勒展开；

结合课件内容及考试简答题的规范，答案整理如下：

一、光流方程的推导

基础假设 ：基于恒定亮度假设，即同一像素点在不同时刻的亮度保持不变，表示为：(\psi(x+d_x, y+d_y, t+d_t) = \psi(x, y, t))。
泰勒展开 ：将左侧函数在位置 ((x, y, t)) 处进行一阶泰勒级数展开，得到：
(\psi(x+d_x, y+d_y, t+d_t) = \psi(x, y, t) + \frac{\partial \psi}{\partial x}d_x + \frac{\partial \psi}{\partial y}d_y + \frac{\partial \psi}{\partial t}d_t)
对比与化简 ：将展开式代入恒定亮度假设等式，两边消去 (\psi(x, y, t))，并除以时间变化量 (d_t)，得到：
(\frac{\partial \psi}{\partial x} \frac{d_x}{d_t} + \frac{\partial \psi}{\partial y} \frac{d_y}{d_t} + \frac{\partial \psi}{\partial t} = 0)
向量表达 ：令图像空间梯度 (\nabla \psi = $\\frac{\\partial \\psi}{\\partial x}, \\frac{\\partial \\psi}{\\partial y}$ ^T)，像素运动速度 (v = $v_x, v_y$ ^T)，则最终光流方程为：
∇ ψ T v + ∂ ψ ∂ t = 0 \nabla \psi^T v + \frac{\partial \psi}{\partial t} = 0 ∇ψTv+∂t∂ψ=0

二、光流估计的二义性

根本原因（方程欠定） ：光流方程为一个方程，包含 (v_x) 和 (v_y) 两个未知数，是欠定方程组。仅凭此方程无法求出唯一的速度矢量（(v_x, v_y)）。
几何解释（孔径问题） ：将速度矢量分解为沿梯度方向的法向分量 (v_n) 和垂直于梯度的切向分量 (v_t)（即 (v = v_n e_n + v_t e_t)）。光流方程只包含沿梯度 (v_n) 方向的流向量 ，而切线方向 (v_t) 的流向量在数学上是未定义的（无法被方程解出）。
特殊区域失效 ：在平坦纹理区域 ，由于图像局部灰度不发生显著变化，空间梯度 (\nabla \psi = 0)。此时光流方程为 (\frac{\partial \psi}{\partial t} = 0)，光流是完全不确定的。
结论：在平坦区域，运动估计不可靠；而在靠近边缘的区域（梯度 (\nabla \psi) 较大），光流估计更可靠，但仍只能准确计算出垂直于边缘的速度分量。