简易机器学习笔记（七）计算机视觉基础 - 常用卷积核和简单的图片的处理

前言

这里实际上涉及到了挺多有关有关理论的东西，可以详细看一下paddle的官方文档。不过我这里不过多的谈有关理论的东西。

在代码中，我们实际上是用不同的卷积核来造成不同的影响，我这里也是paddle中对于卷积核的几个比较简单的应用。

什么是卷积核？如果你不考虑卷积核的计算，可以简单的将卷积核理解成一个矩阵，这个矩阵维度的大小和取值的不同会导致卷积计算中对图像造成不同的影响。

实际上你也可以理解成通过卷积算子对图像进行了处理，而输出的参数矩阵也就是卷积核，卷积核会决定对图像的处理结果。卷积核对图像造成的影响可以参考上方常见卷积核汇总。

飞桨卷积算子对应的API是paddle.nn.Conv2D，用户可以直接调用API进行计算，也可以在此基础上修改。Conv2D名称中的"2D"表明卷积核是二维的，多用于处理图像数据。类似的，也有Conv3D可以用于处理视频数据（图像的序列）。

python 复制代码

class paddle.nn.Conv2D (in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, padding_mode='zeros', weight_attr=None, bias_attr=None, data_format='NCHW')

常用参数如下

in_channels(int) - 输入图像的通道数。
out_channels(int) - 卷积核的个数，和输出特征图通道数相同
kernel_size(int|list|tuple) - 卷积核大小，可以是整数，比如3，表示卷积核的高和宽均为3 ；或者是两个整数的list，例如[3,2]，表示卷积核的高为3，宽为2.
stride(int|list|tuple，可选) - 步长大小，可以是整数，默认值为1，表示垂直和水平滑动步幅均为1；或者是两个整数的list，例如[3,2]，表示垂直滑动步幅为3，水平滑动步幅为2。
padding(int|list|tuple|str，可选) - 填充大小，可以是整数，比如1，表示竖直和水平边界填充大小均为1；或者是两个整数的list，例如[2,1]，表示竖直边界填充大小为2，水平边界填充大小为1。

卷积算子应用举例

简单的黑白边界检测

下面是使用Conv2D算子完成一个图像边界检测的任务。图像左边为光亮部分，右边为黑暗部分，需要检测出光亮跟黑暗的分界处。

这里是通过np生成了一个单独的照片，左边是白色，右边是黑色，然后我们通过一个简单的卷积算子来检测处光亮和黑暗的分界处。

设置宽度方向的卷积核为[1,0,-1]，此卷积核会将宽度方向间隔为1的两个像素点的数值相减。当其像素值为0的时候画面为光亮部分，不为0的时候为黑暗部分。

当卷积核在图片上滑动时，如果它所覆盖的像素点位于亮度相同的区域，则左右间隔为1的两个像素点数值的差为0。

只有当卷积核覆盖的像素点有的处于光亮区域，有的处在黑暗区域时，左右间隔为1的两个点像素值的差才不为0。将此卷积核作用到图片上，输出特征图上只有对应黑白分界线的地方像素值才不为0。具体代码如下所示，结果输出在下方的图案中。

目标大概讲解完了，来简单看看代码

卷积核处理图像的流程大致如下：

创建初始化权重参数w，调整w的维度为[cout,cin,kh,kw]四维张量
创建卷积算子conv
输入图片，将图片转换成[N, C, H, W]的形式
将numpy.ndarray转化成paddle中的tensor
使用卷积算子作用在输入图片上
将输出tensor转化为numpy.ndarray

python 复制代码

# 创建初始化权重参数w
w = np.array([1, 0, -1], dtype='float32')
# 将权重参数调整成维度为[cout, cin, kh, kw]的四维张量
w = w.reshape([1, 1, 1, 3])
# 创建卷积算子，设置输出通道数，卷积核大小，和初始化权重参数
# kernel_size = [1, 3]表示kh = 1, kw=3
# 创建卷积算子的时候，通过参数属性weight_attr指定参数初始化方式
# 这里的初始化方式时，从numpy.ndarray初始化卷积参数
conv = Conv2D(in_channels=1, out_channels=1, kernel_size=[1, 3],
       weight_attr=paddle.ParamAttr(
          initializer=Assign(value=w)))


# 创建输入图片，图片左边的像素点取值为1，右边的像素点取值为0
img = np.ones([50,50], dtype='float32')
img[:, 30:] = 0.

# 将图片形状调整为[N, C, H, W]的形式
x = img.reshape([1,1,50,50])

# 将numpy.ndarray转化成paddle中的tensor
x = paddle.to_tensor(x)

# 使用卷积算子作用在输入图片上
y = conv(x)
# 将输出tensor转化为numpy.ndarray
out = y.numpy()
f = plt.subplot(121)
f.set_title('input image', fontsize=15)
plt.imshow(img, cmap='gray')
f = plt.subplot(122)
f.set_title('output featuremap', fontsize=15)
# 卷积算子Conv2D输出数据形状为[N, C, H, W]形式
# 此处N, C=1，输出数据形状为[1, 1, H, W]，是4维数组
# 但是画图函数plt.imshow画灰度图时，只接受2维数组
# 通过numpy.squeeze函数将大小为1的维度消除
plt.imshow(out.squeeze(), cmap='gray')
plt.show()

图像中物体边缘检测

我这里没有paddle教程上的那张图，所以我自己找了一张图，这张图效果还不错：

这里实际上是用了边缘增强卷积核，流程和上述的检测差不多，我们期望的结果如图所示：

和上述代码中最大的区别其实只有使用的卷积核不同，以及输入通道不同

使用的卷积核为

-1 -1 -1

-1 8 -1

-1 -1 -1

造成的影响将如图所示

实际代码：

整体流程和上述代码差距不大，流程还是上述的流程：

创建初始化权重参数w，调整w的维度为[cout,cin,kh,kw]四维张量
创建卷积算子conv
输入图片，将图片转换成[N, C, H, W]的形式
将numpy.ndarray转化成paddle中的tensor
使用卷积算子作用在输入图片上
将输出tensor转化为numpy.ndarray

python 复制代码

import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
import paddle
from paddle.nn import Conv2D
from paddle.nn.initializer import Assign
img = Image.open('./work/images/section1/91137200db2fdeaad2c666342a4d653.jpg')

# 设置卷积核参数
w = np.array([[-1,-1,-1], [-1,8,-1], [-1,-1,-1]], dtype='float32')/8
w = w.reshape([1, 1, 3, 3])
# 由于输入通道数是3，将卷积核的形状从[1,1,3,3]调整为[1,3,3,3]
w = np.repeat(w, 3, axis=1)
# 创建卷积算子，输出通道数为1，卷积核大小为3x3，
# 并使用上面的设置好的数值作为卷积核权重的初始化参数
conv = Conv2D(in_channels=3, out_channels=1, kernel_size=[3, 3], 
            weight_attr=paddle.ParamAttr(
              initializer=Assign(value=w)))
    
# 将读入的图片转化为float32类型的numpy.ndarray
x = np.array(img).astype('float32')
# 图片读入成ndarry时，形状是[H, W, 3]，
# 将通道这一维度调整到最前面
x = np.transpose(x, (2,0,1))
# 将数据形状调整为[N, C, H, W]格式
x = x.reshape(1, 3, img.height, img.width)
x = paddle.to_tensor(x)
y = conv(x)
out = y.numpy()
plt.figure(figsize=(20, 10))
f = plt.subplot(121)
f.set_title('input image', fontsize=15)
plt.imshow(img)
f = plt.subplot(122)
f.set_title('output feature map', fontsize=15)
plt.imshow(out.squeeze(), cmap='gray')
plt.show()

图像均值模糊

到这里实际上图像均值模糊主要还是来源于卷积核的不同，到这里卷积核就从上面的

-1 -1 -1

-1 8 -1

-1 -1 -1

变成了一个10 x 10的同样值的矩阵

比如

代码实现

python 复制代码

# 另外一种比较常见的卷积核（5*5的卷积核中每个值均为1）是用当前像素跟它邻域内的像素取平均，这样可以使图像上噪声比较大的点变得更平滑，如下代码所示：

import paddle
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from paddle.nn import Conv2D
from paddle.nn.initializer import Assign
# 读入图片并转成numpy.ndarray
# 换成灰度图
img = Image.open('./work/images/section1/91137200db2fdeaad2c666342a4d653.jpg').convert('L')
img = np.array(img)

# 创建初始化参数
w = np.ones([1, 1, 10, 10], dtype = 'float32')/25
print(w)
conv = Conv2D(in_channels=1, out_channels=1, kernel_size=[5, 5], 
        weight_attr=paddle.ParamAttr(
         initializer=Assign(value=w)))

x = img.astype('float32')

x = x.reshape(1,1,img.shape[0], img.shape[1])
x = paddle.to_tensor(x)
y = conv(x)
out = y.numpy()

plt.figure(figsize=(20, 12))
f = plt.subplot(121)
f.set_title('input image')
plt.imshow(img, cmap='gray')

f = plt.subplot(122)
f.set_title('output feature map')
out = out.squeeze()
plt.imshow(out, cmap='gray')

plt.show()