形态学与多尺度处理:计算机视觉中图像形状与尺度的基础处理框架【计算机视觉】
- 形态学与多尺度处理
-
- Ⅰ、引言
- [Ⅱ、数学形态学 ------ 图像的几何形状与结构处理](#Ⅱ、数学形态学 —— 图像的几何形状与结构处理)
-
- [1. 前置基础](#1. 前置基础)
- [2. 腐蚀(Erosion):前景集合的"收缩与裁剪"](#2. 腐蚀(Erosion):前景集合的“收缩与裁剪”)
-
- [(1) 数学定义(二值图像)](#(1) 数学定义(二值图像))
- [(2) 数学逻辑拆解](#(2) 数学逻辑拆解)
- [(3) 直观效果与数学本质](#(3) 直观效果与数学本质)
- [(4) 简单示例](#(4) 简单示例)
- [3. 膨胀(Dilation):前景集合的"扩张与填补"](#3. 膨胀(Dilation):前景集合的“扩张与填补”)
-
- [(1) 数学定义(二值图像)](#(1) 数学定义(二值图像))
- [(2) 数学逻辑拆解](#(2) 数学逻辑拆解)
- [(3) 直观效果与数学本质](#(3) 直观效果与数学本质)
- [(4) 与腐蚀的对偶关系](#(4) 与腐蚀的对偶关系)
- [(5) 简单示例](#(5) 简单示例)
- [4. 开运算(Opening):先腐蚀后膨胀,"去噪不毁形"](#4. 开运算(Opening):先腐蚀后膨胀,“去噪不毁形”)
-
- [(1) 数学定义(二值图像)](#(1) 数学定义(二值图像))
- [(2) 数学逻辑与运算顺序](#(2) 数学逻辑与运算顺序)
- [(3) 直观效果与数学本质](#(3) 直观效果与数学本质)
- [(4) 与单独腐蚀/膨胀的区别](#(4) 与单独腐蚀/膨胀的区别)
- [5. 闭运算(Closing):先膨胀后腐蚀,"填洞不毁形"](#5. 闭运算(Closing):先膨胀后腐蚀,“填洞不毁形”)
-
- [(1) 数学定义(二值图像)](#(1) 数学定义(二值图像))
- [(2) 数学逻辑与运算顺序](#(2) 数学逻辑与运算顺序)
- [(3) 直观效果与数学本质](#(3) 直观效果与数学本质)
- [(4) 与开运算的对偶关系](#(4) 与开运算的对偶关系)
- [6. 总结:数学形态学四大算子核心对比](#6. 总结:数学形态学四大算子核心对比)
- [Ⅲ、多尺度处理 ------ 图像的分辨率层级与尺度分解](#Ⅲ、多尺度处理 —— 图像的分辨率层级与尺度分解)
-
- [1. 前置基础](#1. 前置基础)
- [2. 高斯金字塔(Gaussian Pyramid):图像的"下采样多尺度层级"](#2. 高斯金字塔(Gaussian Pyramid):图像的“下采样多尺度层级”)
-
- [(1) 数学定义与核心步骤](#(1) 数学定义与核心步骤)
- [(2) 数学逻辑拆解](#(2) 数学逻辑拆解)
- [(3) 直观效果与数学本质](#(3) 直观效果与数学本质)
- [(4) 简单示例](#(4) 简单示例)
- [3. 拉普拉斯金字塔(Laplacian Pyramid):图像的"尺度残差"](#3. 拉普拉斯金字塔(Laplacian Pyramid):图像的“尺度残差”)
-
- [(1) 数学定义与核心步骤](#(1) 数学定义与核心步骤)
- [(2) 数学逻辑拆解](#(2) 数学逻辑拆解)
- [(3) 直观效果与数学本质](#(3) 直观效果与数学本质)
- [(4) 与高斯金字塔的对应关系](#(4) 与高斯金字塔的对应关系)
- [4. 图像重建过程(核心应用)](#4. 图像重建过程(核心应用))
-
- [(1) 重建公式](#(1) 重建公式)
- [(2) 重建步骤(结合示例)](#(2) 重建步骤(结合示例))
- [(3) 重建核心逻辑](#(3) 重建核心逻辑)
- [(4) 关键意义](#(4) 关键意义)
- [5. 总结](#5. 总结)
- Ⅳ、总结
形态学与多尺度处理
形态学处理图像几何形状,多尺度构建分层表示,共同构成传统计算机视觉结构分析与尺度兼容处理的关键技术体系。
Ⅰ、引言
刚接触计算机视觉的同学,大多会从最基础的操作开始:调整亮度、做灰度转换、用模糊和边缘检测找轮廓。这些方法直观好用,但很快就会遇到一个共同问题 ------只看像素灰度,很难真正理解图像里的 "形状" 和 "结构"。
比如一张有噪点的二值图,小噪点和真正目标混在一起,简单阈值分割分不开;目标边缘有毛刺、内部有小洞,普通滤波要么去不掉干扰,要么把有用的轮廓一起磨掉;还有同一张图里,既有细小的纹理细节,又有大块的区域轮廓,只用一种固定的处理方式,总会顾此失彼 。这些场景,正是传统灰度运算不好解决,而形态学和多尺度处理擅长的地方。
数学形态学 ,是计算机视觉里专门用来处理形状、结构、轮廓 的一套基础方法。它不纠结像素具体的灰度数值,而是把图像看成 "点的集合",用一个小模板(结构元素)在图上移动,通过简单的膨胀、腐蚀、开合运算 ,就能实现去小噪点、补孔洞、修边缘、拆分粘连目标 这些操作。对新手来说,它是理解 "从像素到形状" 的第一步,也是很多分割、检测任务的前置基础。
但只学会基础形态学还不够。现实图像里的目标从来不是统一大小:小到几像素的细节,大到占满画面的区域,特征天然分布在不同尺度 上。固定大小的模板,只能处理对应尺寸的结构,要么丢细节,要么糊轮廓。这就需要引入多尺度处理 的思路 ------ 用不同大小的模板、不同粗细的观察层级,分别提取信息,再把结果整合起来,做到细节和整体都兼顾。
Ⅱ、数学形态学 ------ 图像的几何形状与结构处理
1. 前置基础
在正式学习腐蚀、膨胀这些具体操作之前,我们先把最基础、最核心的几个概念讲明白。这些是后面所有内容的前提,弄懂它们,形态学就一通百通。
(1)图像与结构元素的集合表示
数学形态学最核心的思想,是不把图像当成一堆亮度数字,而是看成一堆坐标点的集合,所有操作都基于"点的归属"来计算。
-
对于二值图像 :
整张图只有两种像素:黑和白,没有中间灰色。
黑色:值为 0,代表背景,也就是我们不关心的区域。
白色:值为 1 或 255,代表前景 ,也就是我们要处理的目标(文字、细胞、零件、图形等)。

我们把图里所有白色前景像素的坐标 (x,y) 打包在一起 ,起一个名字叫集合 A A A。
除了这些点以外的所有黑色区域,统称为 A A A 的补集,记作 A c A^c Ac,也就是背景。
举个例子:一张图里有一个白色正方形,那这个正方形边界和内部每一个像素的坐标放在一起,就是集合 A A A。
-
对于结构元素 :
可以理解成一个固定大小、固定形状的小模板 ,比如 3×3 方形、小十字、小圆等。
我们给它起名叫集合 B B B。
这个小模板有一个中心参考点,叫原点(锚点),一般就是正中心。我们在图上滑动操作时,就是用这个中心点去对准图像上的每一个像素。
你可以把结构元素想象成一把"小印章"或"小尺子",后面所有腐蚀、膨胀,都是拿着这把尺子在图上挨个判断。
总结一句:
形态学的所有操作,本质就是用小模板 B B B,在前景集合 A A A 上做各种规则判断,不同规则就对应腐蚀、膨胀等不同效果。
(2)平移与反射
在学习腐蚀和膨胀的公式前,要先懂两个最基础的"点集移动方式",它们是后面公式的组成零件。
-
集合的平移
平移就是把结构元素 B B B 整体从一个位置,挪到图像上的另一个位置 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)。
平移后的集合记作 B ( x 0 , y 0 ) B_{(x_0,y_0)} B(x0,y0),数学写法是:
B ( x 0 , y 0 ) = { ( x + x 0 , y + y 0 ) ∣ ( x , y ) ∈ B } B_{(x_0,y_0)} = \{ (x+x_0, y+y_0) \mid (x,y) \in B \} B(x0,y0)={(x+x0,y+y0)∣(x,y)∈B}解释:原来小模板里每个点的坐标是 (x,y),平移之后,每个点的 x 都加 x₀,y 都加 y₀,相当于把整个小模板完整地"挪过去",形状、大小完全不变,只是换了个位置。这就是我们常说的"结构元素在图像上滑动"。
-
集合的反射(对称)
反射就是把结构元素 B B B 以它的原点为中心,做一次上下左右的镜像翻转。
反射后的集合记作 B ^ \hat{B} B^,数学写法是:
B ^ = { ( − x , − y ) ∣ ( x , y ) ∈ B } \hat{B} = \{ (-x, -y) \mid (x,y) \in B \} B^={(−x,−y)∣(x,y)∈B}解释:把小模板沿着中心对称翻一面,x 变成 -x,y 变成 -y。对称之后,方形、十字形这种对称形状看起来没变,但不规则形状会左右/上下颠倒。这个操作在膨胀里会用到,是膨胀和腐蚀在数学上的关键区别之一。
2. 腐蚀(Erosion):前景集合的"收缩与裁剪"
腐蚀是数学形态学里最基础、最常用的算子,作用非常直观:让图像里的前景目标整体向内收缩、变小一圈,同时清除掉细小的前景噪点。下面结合对比图,从数学定义、运算逻辑、直观效果到示例,一步步讲透。
(1) 数学定义(二值图像)
在二值图像中,我们把前景目标的所有像素点(图中左侧二值化图的白色区域,如人物轮廓、帽子)记作集合 A A A,把用来操作的小模板(结构元素)记作集合 B B B。
A A A 被 B B B 腐蚀的结果(图中右侧腐蚀效果的白色区域)记作 A ⊖ B A \ominus B A⊖B,标准数学表达式为:
A ⊖ B = { ( x , y ) ∣ B ( x , y ) ⊆ A } A \ominus B = \{ (x,y) \mid B_{(x,y)} \subseteq A \} A⊖B={(x,y)∣B(x,y)⊆A}

(2) 数学逻辑拆解
这个公式不用死记,结合这张对比图拆成三步就能彻底理解:
- 把结构元素 B B B 的中心点(原点),对准左侧二值化图里某一个像素位置 ( x , y ) (x,y) (x,y),相当于把小模板平移到这个点上,得到平移后的集合 B ( x , y ) B_{(x,y)} B(x,y)。
- 检查一件事:平移后的整个小模板 B ( x , y ) B_{(x,y)} B(x,y),是不是完完全全都落在前景 A A A 内部(也就是完全落在白色区域上),没有任何一个点跑到背景里(黑色区域)。
- 只有"完全在前景里"这一条满足,当前中心点 ( x , y ) (x,y) (x,y) 才保留为前景(白色);只要小模板有一点点碰到背景(黑色),这个点就直接变成背景(黑色),这也是右侧图边缘比左侧图收缩的核心原因。
简单概括:腐蚀就是用小模板做"严格筛选",只留能完全包住模板的位置,边缘和细弱区域全部丢掉。
(3) 直观效果与数学本质
- 数学本质:以结构元素 B B B 为"最小单元",对前景 A A A 做严格包含筛选。只有区域大到能完整放下模板的地方才保留,边缘、突出的细刺、小碎点这类"放不下模板"的区域,统一被裁掉。
- 直观效果(对比图中左侧二值化图与右侧腐蚀效果):
- 整个前景目标从外边缘向内收缩一圈,收缩宽度由模板大小决定(如图中人物轮廓、帽子边缘均明显变细、向内收紧);
- 孤立的、面积很小的白色噪点,因为放不下模板,会被直接清除;
- 两个物体之间很细的连接部分,会被直接切断,实现粘连目标分离。
(4) 简单示例
结合图中内容,用最常见的 3×3 方形结构元素 举例:
- 人物轮廓、帽子的中心区域的点:把 3×3 模板放上去,整个模板都在前景内(白色区域),因此这些点全部保留;
- 人物轮廓、帽子的最外圈边缘的点:模板一放,必然有一部分超出前景、碰到背景(黑色区域),因此边缘点全部被去掉,图形向内缩 1 像素(对应右侧图的收缩效果);
- 图中可能存在的小毛刺(宽度只有 1~2 像素):根本放不下 3×3 模板,会被直接彻底清除。
3. 膨胀(Dilation):前景集合的"扩张与填补"
膨胀是腐蚀的对偶运算(二者可以通过集合补集相互转换),效果与腐蚀相反(前景目标"变大、扩张"),数学定义同样基于集合运算。下面我们结合这张对比图来讲解。
(1) 数学定义(二值图像)
在这张图里,二值化图(左)的白色区域(人物轮廓、帽子)就是前景集合 A A A,我们用 3×3 方形小模板作为结构元素 B B B。
A A A 被 B B B 膨胀的结果就是右边的膨胀效果(右) ,记作 A ⊕ B A \oplus B A⊕B(符号 ⊕ \oplus ⊕ 为膨胀运算符),数学表达式为:
A ⊕ B = { ( x , y ) ∣ B ^ ( x , y ) ∩ A ≠ ∅ } A \oplus B = \{ (x,y) \mid \hat{B}_{(x,y)} \cap A \neq \emptyset \} A⊕B={(x,y)∣B^(x,y)∩A=∅}

(2) 数学逻辑拆解
同样把公式翻译成新手能懂的话,结合这张图分3步理解:
- 先对结构元素 B B B 做反射,得到 B ^ \hat{B} B^(这一步是膨胀与腐蚀的核心区别之一,对于方形模板来说,反射后形状不变);
- 把反射后的结构元素 B ^ \hat{B} B^ 的原点对齐到图像上的某个像素点 ( x , y ) (x,y) (x,y),得到平移后的集合 B ^ ( x , y ) \hat{B}_{(x,y)} B^(x,y);
- 判断平移后的 B ^ ( x , y ) \hat{B}{(x,y)} B^(x,y) 与前景集合 A A A 是否有交集 (即 B ^ ( x , y ) \hat{B}{(x,y)} B^(x,y) 中至少有一个点落在前景集合 A A A 上);
- 如果满足"有交集",则保留这个像素点 ( x , y ) (x,y) (x,y) 作为膨胀结果的前景(白色);如果没有交集,则舍弃该点(黑色)。
(3) 直观效果与数学本质
- 数学本质:用结构元素 B B B 的反射集去"扩展"前景集合 A A A,所有与 A A A 有接触的 B B B 覆盖区域都会被纳入前景。
- 直观效果(对比图中左侧二值化图与右侧膨胀效果):
- 前景目标沿边缘向外扩张一圈(扩张的宽度等于结构元素 B B B 的半径/半边长),如图中人物轮廓、帽子的白色区域明显变粗、向外扩张;
- 前景内部的小孔洞(与前景有接触)会被填补,断裂的边缘会被连接起来。
(4) 与腐蚀的对偶关系
膨胀和腐蚀是一对对偶算子,满足以下数学关系(无需记忆,只需理解"相反操作"的逻辑):
( A ⊕ B ) c = A c ⊖ B ^ (A \oplus B)^c = A^c \ominus \hat{B} (A⊕B)c=Ac⊖B^
解释:前景 A A A 被 B B B 膨胀后的背景,等于 A A A 的背景被 B ^ \hat{B} B^ 腐蚀后的前景,这也印证了"膨胀是扩张、腐蚀是收缩"的相反效果。
(5) 简单示例
结合图中内容,用最常见的 3×3 方形结构元素 举例:
- 人物轮廓、帽子内部的像素:与 B ^ \hat{B} B^ 有交集,保留为白色;
- 人物轮廓、帽子边缘的像素:平移后的 B ^ \hat{B} B^ 会覆盖边缘外一圈的像素,这些像素与 A A A 有交集,被纳入前景,边缘向外扩张1个像素(对应右侧图的扩张效果);
- 图中人物轮廓上的细小孔洞(只有1-2个像素大): B ^ \hat{B} B^ 覆盖孔洞时,与周围前景有交集,孔洞被填补。
4. 开运算(Opening):先腐蚀后膨胀,"去噪不毁形"
开运算不是独立的基础算子,而是腐蚀与膨胀的组合运算,有明确的数学定义和固定的运算顺序,核心价值是"去除前景噪点,同时尽可能保留目标原有形状和大小"。下面结合这张对比图来讲解。
(1) 数学定义(二值图像)
在这张图里,二值化图(左)的白色区域(人物轮廓、帽子)就是前景集合 A A A,我们用 3×3 方形小模板作为结构元素 B B B。
A A A 被 B B B 开运算的结果就是右边的开运算效果(右) ,记作 A ∘ B A \circ B A∘B(符号 ∘ \circ ∘ 为开运算运算符),数学表达式为:
A ∘ B = ( A ⊖ B ) ⊕ B A \circ B = (A \ominus B) \oplus B A∘B=(A⊖B)⊕B

(2) 数学逻辑与运算顺序
- 运算顺序不可颠倒 :必须是先对 A A A 做腐蚀运算( A ⊖ B A \ominus B A⊖B),再对腐蚀的结果做膨胀运算;
- 逻辑拆解(结合这张图):
- 第一步腐蚀:去除前景中的小噪点(如图中左侧二值化图里的细小白色噪点)、毛刺、细小突出物,同时让前景目标轻微收缩;
- 第二步膨胀:将第一步收缩后的前景目标,恢复到接近原有大小和形状,同时不会重新引入之前去除的小噪点(因为噪点已经被腐蚀完全消除,膨胀无法复原无中生有的区域)。
(3) 直观效果与数学本质
- 数学本质:开运算是一种"平滑前景轮廓、去除细小亮区(前景噪点)"的形态学滤波,具有"保大去小"的特性;
- 直观效果(对比图中左侧二值化图与右侧开运算效果):
- 去除前景上的孤立小噪点、毛刺、细小突出物(如图中左侧的细小白色噪点在右侧图中已消失);
- 平滑前景目标的外角(尖锐拐角变圆润);
- 轻微分离粘连不严重的前景目标;
- 几乎不改变前景目标的整体大小、形状和位置(如图中人物轮廓、帽子的整体形态基本保留),这是单独腐蚀或膨胀无法实现的。
(4) 与单独腐蚀/膨胀的区别
如果先膨胀后腐蚀(不是开运算),会导致小噪点被放大,反而更难去除;而开运算的"先腐后膨",既实现了去噪,又避免了目标过度收缩,这是其核心优势。
5. 闭运算(Closing):先膨胀后腐蚀,"填洞不毁形"
闭运算是开运算的对偶运算,同样是腐蚀与膨胀的组合运算,运算顺序与开运算相反,核心价值是"填补前景内部的小孔洞、缝隙,同时尽可能保留目标原有形状和大小"。下面结合这张对比图来讲解。
(1) 数学定义(二值图像)
在这张图里,二值化图(左)的白色区域(人物轮廓、帽子)就是前景集合 A A A,我们用 3×3 方形小模板作为结构元素 B B B。
A A A 被 B B B 闭运算的结果就是右边的闭运算效果(右) ,记作 A ∙ B A \bullet B A∙B(符号 ∙ \bullet ∙ 为闭运算运算符),数学表达式为:
A ∙ B = ( A ⊕ B ) ⊖ B A \bullet B = (A \oplus B) \ominus B A∙B=(A⊕B)⊖B

(2) 数学逻辑与运算顺序
- 运算顺序不可颠倒 :必须是先对 A A A 做膨胀运算( A ⊕ B A \oplus B A⊕B),再对膨胀的结果做腐蚀运算;
- 逻辑拆解(结合这张图):
- 第一步膨胀:填补前景内部的小孔洞、缝隙(如图中人物帽子和轮廓上的细小黑色孔洞)、凹口,同时让前景目标轻微扩张;
- 第二步腐蚀:将第一步扩张后的前景目标,恢复到接近原有大小和形状,同时不会重新引入之前填补的孔洞(因为孔洞已经被膨胀完全填补,腐蚀无法复原无中生有的背景区域)。
(3) 直观效果与数学本质
- 数学本质:闭运算是一种"平滑前景轮廓、填补细小暗区(前景孔洞、缝隙)"的形态学滤波,具有"保大填小"的特性;
- 直观效果(对比图中左侧二值化图与右侧闭运算效果):
- 填补前景内部的小孔洞、缝隙、细小凹口(如图中人物帽子上的细小黑色孔洞在右侧图中已被填补);
- 平滑前景目标的内角(尖锐凹角变圆润);
- 连接断裂不严重的前景边缘(如图中人物轮廓的细小断裂部分在右侧图中已被连接);
- 几乎不改变前景目标的整体大小、形状和位置(如图中人物轮廓、帽子的整体形态基本保留),这是单独腐蚀或膨胀无法实现的。
(4) 与开运算的对偶关系
闭运算和开运算互为对偶,满足以下数学关系:
( A ∙ B ) c = A c ∘ B ^ (A \bullet B)^c = A^c \circ \hat{B} (A∙B)c=Ac∘B^
人话解释:前景 A A A 被 B B B 闭运算后的背景,等于 A A A 的背景被 B ^ \hat{B} B^ 开运算后的前景,对应"填洞"与"去噪"的相反功能。
6. 总结:数学形态学四大算子核心对比
为了帮你快速区分和记忆,我们把腐蚀、膨胀、开运算、闭运算的核心信息整理成表格:
| 算子 | 运算顺序 | 核心功能 | 对应效果(结合示例图) |
|---|---|---|---|
| 腐蚀 | 单独运算 | 收缩前景、去小噪点 | 人物轮廓变细、小毛刺消失 |
| 膨胀 | 单独运算 | 扩张前景、填小孔洞 | 人物轮廓变粗、小缺口被填补 |
| 开运算 | 先腐蚀后膨胀 | 去噪点、保形状 | 小噪点消失,人物形态基本不变 |
| 闭运算 | 先膨胀后腐蚀 | 填孔洞、保形状 | 小孔洞消失,人物形态基本不变 |
核心逻辑:
- 单独算子(腐蚀/膨胀):做单一的收缩/扩张,但会改变目标大小;
- 组合算子(开/闭运算):通过"先操作后恢复"的方式,在完成去噪/填洞的同时,保留目标原有形态。
到这里,数学形态学中最核心的几何结构处理方法就全部讲清楚了------这些操作能帮我们把图像的形状、轮廓"整理规整",是后续图像分割、目标检测等任务的关键预处理工具。
Ⅲ、多尺度处理 ------ 图像的分辨率层级与尺度分解
1. 前置基础
在正式学习金字塔之前,先明确多尺度处理的核心问题:
图像中的目标往往是"多尺寸共存"的(比如一张图里既有小的文字,又有大的物体),而单一尺寸的操作(比如固定大小的模板)只能处理某一种尺寸的目标,无法兼顾所有细节。
多尺度处理的思路是:把图像分解成不同分辨率的层级,让"小目标"留在高分辨率层、"大目标"留在低分辨率层,再针对不同层级单独处理。
而实现这一思路的经典工具,就是高斯金字塔 (负责"缩小分层")和拉普拉斯金字塔(负责"记录细节")。
2. 高斯金字塔(Gaussian Pyramid):图像的"下采样多尺度层级"
(1) 数学定义与核心步骤
高斯金字塔是由原始图像逐层缩小得到的"图像堆",第 i i i 层高斯图像 G i G_i Gi 的生成公式为:
G i = Downsample ( GaussianBlur ( G i − 1 ) ) G_i = \text{Downsample}\left( \text{GaussianBlur}(G_{i-1}) \right) Gi=Downsample(GaussianBlur(Gi−1))
其中:
- G i − 1 G_{i-1} Gi−1:上一层(分辨率更高)的高斯图像;
- GaussianBlur \text{GaussianBlur} GaussianBlur:用高斯滤波器对图像做模糊处理;
- Downsample \text{Downsample} Downsample:去掉图像的偶数行和偶数列,尺寸缩小为原来的 1/2。

(2) 数学逻辑拆解
拆成两步理解,核心是"先模糊再缩小":
- 先做高斯模糊:目的是消除"直接缩小"带来的锯齿(比如直线变阶梯),让缩小后的图像更平滑;
- 再做下采样:把图像尺寸减半,得到更小的下一层图像。
(3) 直观效果与数学本质
- 数学本质:对图像做"多尺度降维",把不同尺寸的目标分配到不同层级;
- 直观效果:
- 底层 G 0 G_0 G0:原始图像,尺寸最大、细节最丰富(能看到小纹理);
- 上层 G 1 / G 2 G_1/G_2 G1/G2:尺寸依次减半,细节减少、大轮廓更突出(只保留大物体)。
(配"原始图→G1→G2"的金字塔层级图)
(4) 简单示例
用一张包含"小文字+大物体"的图举例:
- G 0 G_0 G0(原始层):能同时看到小文字和大物体;
- G 1 G_1 G1(缩小1/2):小文字变得模糊,大物体轮廓清晰;
- G 2 G_2 G2(缩小1/4):小文字消失,只剩大物体的整体形状。
3. 拉普拉斯金字塔(Laplacian Pyramid):图像的"尺度残差"
(1) 数学定义与核心步骤
拉普拉斯金字塔是基于高斯金字塔构建的,第 i i i 层拉普拉斯图像 L i L_i Li 用于记录" G i G_i Gi 放大后与 G i − 1 G_{i-1} Gi−1 的差异",公式为:
L i = G i − Upsample ( GaussianBlur ( G i + 1 ) ) L_i = G_i - \text{Upsample}\left( \text{GaussianBlur}(G_{i+1}) \right) Li=Gi−Upsample(GaussianBlur(Gi+1))
其中 Upsample \text{Upsample} Upsample 是"上采样":给图像的行和列之间插0,尺寸放大为原来的2倍。

(2) 数学逻辑拆解
核心是"记录缩小过程中丢失的细节":
- 先把上层 G i + 1 G_{i+1} Gi+1 模糊、放大,得到和 G i G_i Gi 尺寸相同的图像;
- 用 G i G_i Gi 减去这个放大后的图像,差值就是" G i + 1 G_{i+1} Gi+1 比 G i G_i Gi 少的细节"。
(3) 直观效果与数学本质
- 数学本质:存储高斯金字塔各层的"细节残差",是后续"从缩小图重建原图"的关键;
- 直观效果:拉普拉斯图像以"黑白噪点"的形式存在,记录的是对应层级的细节(比如 L 0 L_0 L0 记录 G 0 G_0 G0 的小纹理)。
(4) 与高斯金字塔的对应关系
高斯金字塔是"缩小的图像堆",拉普拉斯金字塔是"各层的细节差"------两者结合,既能把图像拆成多尺度,也能通过"放大+补细节"重建出原始图像。
4. 图像重建过程(核心应用)
基于高斯金字塔和拉普拉斯金字塔的"拆图+存细节"逻辑,重建原始图像的过程本质是"放大+补细节",步骤清晰且可逆:
(1) 重建公式
从拉普拉斯金字塔最上层(最小尺寸)开始,逐层叠加残差并放大,最终恢复原始图像,公式为:
G i = L i + Upsample ( GaussianBlur ( G i + 1 ) ) G_i = L_i + \text{Upsample}\left( \text{GaussianBlur}(G_{i+1}) \right) Gi=Li+Upsample(GaussianBlur(Gi+1))
- 递归解释:第 i i i 层高斯图像 = 第 i i i 层细节残差( L i L_i Li) + 第 i + 1 i+1 i+1 层高斯图像放大后的结果;
- 终止条件:最上层高斯图像 G n G_n Gn 直接等于拉普拉斯最上层 L n L_n Ln(无更高层细节可补)。

(2) 重建步骤(结合示例)
假设高斯金字塔有 G 0 G_0 G0(原始图)、 G 1 G_1 G1、 G 2 G_2 G2、 G 3 G_3 G3 四层,拉普拉斯金字塔对应 L 0 L_0 L0、 L 1 L_1 L1、 L 2 L_2 L2、 L 3 L_3 L3,重建过程如下:
- 起始层:以拉普拉斯最上层 L 3 L_3 L3 为基础(对应高斯金字塔 G 3 G_3 G3,最小尺寸 64×64);
- 重建 G 2 G_2 G2:将 L 3 L_3 L3 上采样→高斯模糊→与 L 2 L_2 L2 叠加,得到 G 2 G_2 G2(128×128);
- 重建 G 1 G_1 G1:将 G 2 G_2 G2 上采样→高斯模糊→与 L 1 L_1 L1 叠加,得到 G 1 G_1 G1(256×256);
- 重建 G 0 G_0 G0:将 G 1 G_1 G1 上采样→高斯模糊→与 L 0 L_0 L0 叠加,得到原始尺寸图像 G 0 G_0 G0(512×512);
- 归一化:确保像素值在 0-255 范围内,避免显示异常。
(3) 重建核心逻辑
- 拉普拉斯金字塔的每一层 L i L_i Li,都是 G i G_i Gi 相对于" G i + 1 G_{i+1} Gi+1 放大后"的"细节补丁";
- 重建过程就是把这些"补丁"逐层贴回放大后的图像上,最终还原出完整的原始图像;
- 由于残差记录了所有丢失的细节,重建后的图像与原始图像几乎完全一致(MSE 接近 0)。

(4) 关键意义
- 验证了拉普拉斯金字塔"存储细节"的有效性,说明多尺度分解不是"不可逆的信息丢失";
- 为后续应用(如图像融合、超分辨率重建、噪声去除)提供基础------可在不同尺度下修改细节,再通过重建得到处理后的图像。

5. 总结
多尺度处理通过高斯金字塔(拆图)+ 拉普拉斯金字塔(存细节)+ 图像重建(拼图) 的流程,实现了图像的"分-存-合",核心要点如下:
- 高斯金字塔:负责将图像逐层下采样缩小,是多尺度分解的基础,每一层对应不同尺寸的目标(小目标在底层,大目标在高层);
- 拉普拉斯金字塔:基于高斯金字塔构建,记录各层缩小过程中丢失的细节残差,是"可逆重建"的关键;
- 图像重建:通过"上采样+叠加残差"的方式,将多尺度分解的图像还原为原始尺寸,验证了多尺度处理的可逆性;
- 核心价值:多尺度处理不仅是"图像缩放的工具",更是后续高级任务(如图像融合、超分辨率、目标检测)的基础------可在不同尺度下针对性处理细节/轮廓,再重建得到最终结果。
Ⅳ、总结
数学形态学 + 多尺度处理,二者是图像预处理两大基础,前者调「形状」,后者分「尺度」,互补支撑高级计算机视觉任务。
一、数学形态学
- 核心:以「结构元」为模板,局部调整图像几何形状(不改变分辨率)
- 基础操作:腐蚀(收缩)、膨胀(扩张)、开运算(去小噪)、闭运算(填空洞)
- 核心作用:图像去噪、形状规整、轮廓提取
二、多尺度处理
- 核心:将图像拆分为不同分辨率层级(支持可逆重建)
- 核心工具:高斯金字塔(分层缩小)、拉普拉斯金字塔(存细节残差)、图像重建(叠加残差还原)
- 核心作用:适配不同尺寸目标、图像融合、超分辨率重建
三、协同价值
- 功能互补:形态学负责「局部形状精细化」,多尺度负责「全局尺度分层」
- 协同应用:先分层处理,再对目标层级做形状调整,最后重建得到优化图像