机器学习9-卷积和卷积核2

机器学习9-卷积和卷积核2

卷积与边缘提取

边缘:图像中亮度明显而急剧变化的点

为什么要研究边缘?

  • 编码图像中的语义与形状信息。
  • 相对于像素表示边缘显然更加紧凑。

边缘的种类

图中展示了视觉边缘的几种类型,分别是:

  1. 表面法向不连续:这种边缘通常出现在物体表面方向发生突然变化的地方,例如瓶子的侧面与顶部的交界处。
  2. 深度不连续:这种边缘表示物体在深度方向上的突然变化,例如一个物体在另一个物体前面或后面。
  3. 表面颜色不连续:这种边缘出现在物体表面颜色发生突然变化的地方,例如瓶子上不同颜色的标签或图案。
  4. 光照不连续:这种边缘是由于光照条件的突然变化导致的,例如光线在物体表面的反射或阴影的边缘。

这些视觉边缘类型在计算机视觉和图像处理中非常重要,用于识别和分析图像中的物体及其结构。

边缘检测

图像求导

二维函数(f(x,y))的偏导数的定义式:

[ ∂ f ( x , y ) ∂ x = lim ⁡ ε → 0 f ( x + ε , y ) − f ( x , y ) ε \frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} ∂x∂f(x,y)=limε→0εf(x+ε,y)−f(x,y)]

解析
  1. 偏导数的定义
    • 对于一个多元函数(这里是二维函数( f ( x , y ) f(x,y) f(x,y))),偏导数表示函数在某一点沿着某一坐标轴方向的变化率。
    • 对于( x x x)方向的偏导数( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y)),它衡量了函数( f ( x , y ) f(x,y) f(x,y))在( x x x)轴方向上的变化情况,而( y y y)被视为常数。
  2. 极限的意义
    • 偏导数的定义中使用了极限。这里的( ε \varepsilon ε)是一个趋近于0的变量。
    • 当( ε \varepsilon ε)趋近于0时,( f ( x + ε , y ) − f ( x , y ) ε \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} εf(x+ε,y)−f(x,y))表示函数在( x x x)方向上的平均变化率。极限( lim ⁡ ε → 0 \lim_{\varepsilon \to 0} limε→0)则表示当这个平均变化率在( ε \varepsilon ε)无限趋近于0时的精确变化率,即偏导数。
  3. 几何意义
    • 在二维平面上,( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y))可以理解为函数( f ( x , y ) f(x,y) f(x,y))在( x x x)方向上的斜率。
    • 例如,如果( f ( x , y ) f(x,y) f(x,y))表示一个曲面,那么( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y))在某一点的值就是该点处曲面在( x x x)方向上的切线斜率。
示例

假设( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2),求( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y)):

  1. 根据定义,( ∂ f ( x , y ) ∂ x = lim ⁡ ε → 0 f ( x + ε , y ) − f ( x , y ) ε \frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} ∂x∂f(x,y)=limε→0εf(x+ε,y)−f(x,y))。
  2. 代入( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2):
    • ( f ( x + ε , y ) = ( x + ε ) 2 + y 2 = x 2 + 2 x ε + ε 2 + y 2 f(x + \varepsilon,y) = (x + \varepsilon)^2 + y^2 = x^2 + 2x\varepsilon + \varepsilon^2 + y^2 f(x+ε,y)=(x+ε)2+y2=x2+2xε+ε2+y2)。
    • ( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2)。
  3. 计算差值:
    • ( f ( x + ε , y ) − f ( x , y ) = ( x 2 + 2 x ε + ε 2 + y 2 ) − ( x 2 + y 2 ) = 2 x ε + ε 2 f(x + \varepsilon,y) - f(x,y) = (x^2 + 2x\varepsilon + \varepsilon^2 + y^2) - (x^2 + y^2) = 2x\varepsilon + \varepsilon^2 f(x+ε,y)−f(x,y)=(x2+2xε+ε2+y2)−(x2+y2)=2xε+ε2)。
  4. 除以( ε \varepsilon ε):
    • ( f ( x + ε , y ) − f ( x , y ) ε = 2 x ε + ε 2 ε = 2 x + ε \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} = \frac{2x\varepsilon + \varepsilon^2}{\varepsilon} = 2x + \varepsilon εf(x+ε,y)−f(x,y)=ε2xε+ε2=2x+ε)。
  5. 取极限:
    • ( lim ⁡ ε → 0 ( 2 x + ε ) = 2 x \lim_{\varepsilon \to 0} (2x + \varepsilon) = 2x limε→0(2x+ε)=2x)。

所以,对于( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2),( ∂ f ( x , y ) ∂ x = 2 x \frac{\partial f(x,y)}{\partial x} = 2x ∂x∂f(x,y)=2x)。

图像求导公式:

[ ∂ f ( x , y ) ∂ x ≈ f ( x + 1 , y ) − f ( x , y ) 1 \frac{\partial f(x,y)}{\partial x} \approx \frac{f(x + 1,y) - f(x,y)}{1} ∂x∂f(x,y)≈1f(x+1,y)−f(x,y)]

解析
  1. 公式含义
    • 这个公式是一个近似计算图像在 ( x x x) 方向上的偏导数的方法。
    • 这里的 ( f ( x , y ) f(x,y) f(x,y)) 表示图像在坐标 ( ( x , y ) (x,y) (x,y)) 处的像素值。
    • 公式中的 ( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y)) 表示图像在 ( x x x) 方向上的偏导数,即在 ( x x x) 方向上像素值的变化率。
    • 公式右侧的 ( f ( x + 1 , y ) − f ( x , y ) 1 \frac{f(x + 1,y) - f(x,y)}{1} 1f(x+1,y)−f(x,y)) 是一个差分运算,用来近似计算偏导数。具体来说,它计算了在 ( x x x) 方向上相邻两个像素(( x x x) 和 ( x + 1 x+1 x+1))的像素值之差。
  2. 近似原理
    • 在连续函数中,导数是通过极限定义的,即 ( ∂ f ( x , y ) ∂ x = lim ⁡ ε → 0 f ( x + ε , y ) − f ( x , y ) ε \frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} ∂x∂f(x,y)=limε→0εf(x+ε,y)−f(x,y))。
    • 在离散的图像数据中,我们无法取极限,因此采用一个较小的增量(这里是 ( 1 1 1))来近似计算导数。这种方法称为差分近似。
  3. 应用场景
    • 这种图像求导公式在图像处理中非常常见,例如在边缘检测、图像锐化等操作中。
    • 通过计算图像的偏导数,可以找到图像中像素值变化剧烈的地方,这些地方通常对应于图像的边缘。
总结

这个公式提供了一种简单有效的方法来近似计算图像在 (x) 方向上的偏导数,通过相邻像素值的差来估计像素值的变化率,常用于图像处理中的各种操作。

使用卷积核进行求导:

图像梯度

图像的梯度就是图像两个方向导数组成的向量。梯度指向灰度变换最快的方向。


噪声的影响

如图所示。直接对函数fx求导。得到的求导结果会很混乱。解决方法就是先平滑。

经过三次卷积之后得到最终的求导结果。因为卷积有交换和结合律。可以交换卷积顺序来减少运算量。

高斯一阶偏导核进行边缘提取首先做了平滑,后做了去噪。

调整高斯一阶偏导核的方差大小,可以关注图像中不同的目标特征。方差越小特征越细腻,反之则反。

高斯核

  • 消除高频成分(低通滤波器)
  • 卷积核中的权值不可为负数
  • 权值总和为(恒定区域不受卷积影响)

高斯一阶偏导核

  • 高斯的导数
  • 卷积核中的权值可以为负
  • 权值总和是0 (恒定区域无响应)
  • 高对比度点的响应值大

边缘检测目标

经过高斯一阶偏导核卷积后的到如下图片

非极大值抑制

此像素与梯度方向上前后像素进行对比,此像素比前后像素任何一个像素的梯度强度小就删掉此像素点,这种方式就是非极大值抑制方式。这样就保留了梯度最强的一个点。

在处理的过程中,肯定会存在噪声,会设一个门限过滤一些噪点。如图所示,门限设的过高或过低都会影响最终的目标。采用采用双阈值的方式来解决这个问题。

先用高阈值,将梯度比较大的边缘留下来,然后用低阈值找出边缘,保留与高阈值边缘有连接关系的低阈值边缘。最终得到想要的目标图像。

总结

1._用高斯一阶偏导核卷积图像

  1. 计算每个点的梯度幅值和方向

3.非极大值抑制:

  • 将宽的"边缘"细化至单个像素宽度

4.连接与國值(滞后):

  • 定义两个阈值:低和高
  • 使用高阈值开始边缘曲线,使用低阀值继续边缘曲线
相关推荐
青云交4 分钟前
Java 大视界 -- Java 大数据在智能安防中的应用与创新(73)
java·大数据·机器学习·数据采集·数据存储·智能安防·视频监控分析
李建军4 分钟前
一、TensorFlow的建模流程
人工智能·python·tensorflow
黎茗Dawn34 分钟前
DNN(深度神经网络)近似 Lyapunov 函数
人工智能·pytorch·神经网络
我爱Python数据挖掘41 分钟前
《大模型面试宝典》(2025版) 发布了
人工智能·机器学习·面试·职场和发展·大模型
灵魂画师向阳44 分钟前
Stable Diffusion的入门介绍和使用教程
数据库·人工智能·ai作画·stable diffusion·aigc·midjourney
AI巨人1 小时前
如何快速用PS完成产品精修,1分钟1张!
人工智能·ai作画·aigc·ai工具·ai产品精修
CodeJourney.1 小时前
Gitee AI上线:开启免费DeepSeek模型新时代
数据库·人工智能·算法
HyperAI超神经1 小时前
在线教程丨YOLO系列10年更新11个版本,最新模型在目标检测多项任务中达SOTA
人工智能·深度学习·yolo·目标检测·机器学习·物体检测·姿态估计
云边有个稻草人1 小时前
深度学习与搜索引擎优化的结合:DeepSeek的创新与探索
人工智能·深度学习·搜索引擎·deepseek
骇客野人1 小时前
【人工智能】使用deepseek初体验
人工智能