文章目录
图片
OpenCV(Open Source Computer Vision Library)是一个广泛应用于计算机视觉和图像处理领域的开源库。它提供了丰富的图像处理工具和算法,使得开发者能够轻松实现各种图像处理任务。
包括:
从文件中读取图像
通过OpenCV窗口展示图像
将一个图像写入文件
代码:
bash
import cv2 as cv
import sys
# 通过cv.samples.findFile()函数读取图像文件
img = cv.imread(cv.samples.findFile("img_2.png"))
# 检查图像是否成功加载
if img is None:
sys.exit("Could not read the image.") # 如果加载失败,退出程序并显示错误消息
# 显示图像窗口
cv.imshow("Display window", img)
# 等待用户按键输入,返回按键的ASCII码(以毫秒为单位,0表示一直等待)
k = cv.waitKey(0)
# 如果用户按下键盘上的 "s" 键
if k == ord("s"):
# 将图像保存为 "starry_night.png"
cv.imwrite("starry_night.png", img)
print("Image saved as 'starry_night.png'") # 显示保存成功的消息
解释:使用OpenCV加载名为 "img_2.png" 的图像文件。如果图像加载失败,程序将显示错误消息并退出。然后,它将图像显示在一个窗口中,等待用户按键输入。如果用户按下键盘上的 "s" 键,程序将保存当前图像为 "starry_night.png" 并显示保存成功
视频
在图像处理中,经常需要从摄像头中捕获视频流进行处理。OpenCV为我们提供了一个简单而强大的接口来实现这个任务。在这个入门任务中,将如何从摄像头(通常是笔记本电脑上的摄像头)捕获视频流,将视频转换为灰度图像,然后显示出来。
包括:
读取视频,显示视频和保存视频。
从相机中捕获视频和展示它。
将会使用到这些函数:cv.VideoCapture(),cv.VideoWriter()
首先,我们需要创建一个VideoCapture对象,这个对象用于捕获视频。它的参数可以是设备的索引或者是视频文件的名称。设备的索引用于区分连接到计算机的不同摄像头,通常我们会使用0或者-1表示默认连接的摄像头,如果有多个摄像头,可以使用1、2等数字来指定不同的摄像头。
接着,我们可以使用VideoCapture对象的方法逐帧捕获视频,进行处理。在处理完视频之后,不要忘记释放摄像头资源,以确保其他应用程序可以正常使用摄像头。
bash
import numpy as np
import cv2 as cv
# 打开摄像头(设备索引为0,通常表示默认连接的摄像头)
cap = cv.VideoCapture(0)
# 检查摄像头是否成功打开
if not cap.isOpened():
print("Cannot open camera") # 如果打开失败,输出错误消息
exit()
while True:
# 逐帧捕获视频
ret, frame = cap.read()
# 如果ret为False,说明未成功捕获帧,可能是视频流结束
if not ret:
print("Can't receive frame (stream end?). Exiting...")
break # 退出循环
# 将彩色帧转换为灰度图像
gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY)
# 显示处理后的灰度帧
cv.imshow('frame', gray)
# 等待用户按键输入,如果是'q'键则退出循环
if cv.waitKey(1) == ord('q'):
break
# 释放摄像头资源
cap.release()
# 关闭所有窗口
cv.destroyAllWindows()
cap.read()函数返回一个布尔值,如果成功读取到帧,返回True,否则返回False。因此,我们可以通过检查这个返回值来判断视频是否到达结尾。
有时,cap对象可能没有成功初始化,这时候代码会出现错误。我们可以使用cap.isOpened()函数来检查是否成功初始化。如果返回True,说明初始化成功;否则,我们可以使用cap.open()函数尝试重新打开它。
此外,我们还可以使用cap.get(propld)函数获取视频的属性,其中propld是一个从0到18的数字,代表视频的不同属性。你可以查看OpenCV文档中关于cv::VideoCapture::get()函数的详细信息。一些属性的值可以使用cap.set(propld, value)函数进行设置,value是你想要设置的值。
当处理视频时,我们经常需要获取和设置帧的属性,例如宽度和高度。OpenCV提供了方便的方法来实现这些操作。例如,我们可以使用cap.get(cv.CAP_PROP_FRAME_WIDTH)和cap.get(cv.CAP_PROP_FRAME_HEIGHT)来获取帧的默认宽度和高度,它们默认返回值是640×480。
如果我们希望修改帧的尺寸,比如将宽度和高度设置为320×240,我们只需调用以下代码:
bash
ret_width = cap.set(cv.CAP_PROP_FRAME_WIDTH, 320) # 设置帧的宽度为320
ret_height = cap.set(cv.CAP_PROP_FRAME_HEIGHT, 240) # 设置帧的高度为240
这里的ret_width和ret_height将返回设置操作的结果,通常为True表示设置成功,False表示设置失败。通过这种方式,我们可以方便地控制视频帧的尺寸,以满足特定需求。
注:如果一直报错,请确保摄像头开启。
从文件读取视频
从文件中读取视频和从摄像头中捕获视频的基本原理是相同的,唯一的区别在于需要将设备下标(在这种情况下是视频文件的路径)传递给cv.VideoCapture()函数。然后,在使用cv.waitKey()时,我们需要设置适当的等待时间来控制视频的播放速度。
如果等待时间设置得太短,视频将以非常快的速度播放,难以观察。而如果等待时间设置得太长,视频会变得非常慢,这就是制作慢动作视频的方法之一。通常情况下,等待时间应该在正常速度下的每帧间隔内,一般为25毫秒。
bash
import numpy as np
import cv2 as cv
# 打开视频文件('fan.mp4'是视频文件的路径)
cap = cv.VideoCapture('fan.mp4')
while cap.isOpened():
# 逐帧读取视频
ret, frame = cap.read()
# 如果ret为False,说明未成功读取帧,可能是视频流结束
if not ret:
print("Can't receive frame (stream end?). Exiting...")
break # 退出循环
# 将彩色帧转换为灰度图像
gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY)
# 显示处理后的灰度帧
cv.imshow('frame', gray)
# 等待25毫秒,如果用户按下'q'键则退出循环
if cv.waitKey(25) == ord('q'):
break
# 释放视频文件资源
cap.release()
# 关闭所有窗口
cv.destroyAllWindows()
确保安装了合适版本的ffmpeg或者gstreamer。大多数视频捕获出错就是因为安装了错误的ffmpeg/gstreamer。
保存一个视频
当我们想要一帧一帧地捕获视频、进行处理,并保存为视频文件时,我们需要创建一个 VideoWriter 对象。首先,我们要确定输出文件的名字(例如:'output.avi')。接下来,我们需要选择合适的 FourCC 编码,确定帧率(fps)和尺寸。最后,我们还需要设置一个标志 isColor,以确定编码器是接受彩色帧还是灰度帧。
FourCC是一个用来指定视频编解码器的4字节代码,可用代码列表可以在 fourcc.org 中找到。不同平台(系统)有不同代码,下面这些是我认为比较适用的:
•在Fedora(Linux):DIVX, XVID, MJPG, X264, WMV1, WMV2(XVID最合适,MJPG用来生成高规格的视频,而X264正相反)
•在Windows:DIVX(写这个的人也不确定是不是最好的)
•在OSX:MJPG (.mp4), DIVX (.avi), X264 (.mkv)
FourCC的传参方式(以MJPG为例)可以像cv.VideoWriter_fourcc('M', 'J', 'P', 'G')或者cv.VideoWriter_fourcc(*'MJPG')
bash
import numpy as np
import cv2 as cv
# 打开默认摄像头(设备下标为0)
cap = cv.VideoCapture(0)
# 定义视频编解码器和创建VideoWriter对象,fourcc是用于指定视频编码格式的四字符代码
fourcc = cv.VideoWriter_fourcc(*'DIVX') # 使用DIVX编码器
out = cv.VideoWriter('output.avi', fourcc, 20.0, (640, 480)) # 输出视频的文件名、编解码器、帧率和帧大小
while cap.isOpened():
# 逐帧读取视频
ret, frame = cap.read()
# 如果ret为False,说明未成功读取帧,可能是视频流结束
if not ret:
print("Can't receive frame (stream end?). Exiting...")
break # 退出循环
# 将帧上下颠倒(镜像效果)
frame = cv.flip(frame, 0)
# 将帧写入输出视频文件
out.write(frame)
# 显示处理后的帧
cv.imshow('frame', frame)
# 等待1毫秒,如果用户按下'q'键则退出循环
if cv.waitKey(1) == ord('q'):
break
# 释放摄像头和输出视频文件资源
cap.release()
out.release()
# 关闭所有窗口
cv.destroyAllWindows()
绘图函数
通过OpenCV绘画不同的几何形状
使用到这些函数:cv.line()、cv.circle()、cv.rectangle()、cv.ellipse()、cv.putText()等等。
包括:
img: 你想绘图的地方
color: 形状的颜色,通过元组给参。对于灰度,只需要传递标量值。
thickness: 线或者圆的厚度。如果是-1将填充封闭图形。缺省值 thickness = 1
lineType: 线条的种类,
画线
bash
import numpy as np
import cv2 as cv
# 创建一个全黑的图像,大小为512x512,3表示RGB颜色通道
img = np.zeros((512, 512, 3), np.uint8)
# 画一条厚度为5px的蓝线,起点为(0, 0),终点为(511, 511),颜色为蓝色 (255, 0, 0),线宽为5px
cv.line(img, (0, 0), (511, 511), (255, 0, 0), 5)
# 画一个矩形,左上角坐标为(384, 0),右下角坐标为(510, 128),颜色为绿色 (0, 255, 0),线宽为3px
cv.rectangle(img, (384, 0), (510, 128), (0, 255, 0), 3)
# 画一个实心圆,圆心为(447, 63),半径为63,颜色为红色 (0, 0, 255),-1表示填充圆
cv.circle(img, (447, 63), 63, (0, 0, 255), -1)
# 画一个椭圆,中心为(256, 256),长轴和短轴分别为100和50,椭圆角度为0到180度,颜色为白色 (255, 255, 255),-1表示填充椭圆
cv.ellipse(img, (256, 256), (100, 50), 0, 0, 180, 255, -1)
# 定义多边形的顶点坐标
pts = np.array([[10, 5], [20, 30], [70, 20], [50, 10]], np.int32)
# 将多边形的顶点坐标变为3维数组
pts = pts.reshape((-1, 1, 2))
# 画一个多边形,True表示闭合多边形,颜色为黄色 (0, 255, 255)
cv.polylines(img, [pts], True, (0, 255, 255))
# 定义字体类型
font = cv.FONT_HERSHEY_SIMPLEX
# 在图像上添加文字'OpenCV',起始坐标为(10, 500),字体大小为4,颜色为白色 (255, 255, 255),线宽为2px,线型为抗锯齿
cv.putText(img, 'OpenCV', (10, 500), font, 4, (255, 255, 255), 2, cv.LINE_AA)
# 在窗口中显示图像
cv.imshow('demo', img)
# 等待用户按下任意键后关闭窗口
cv.waitKey(0)
在画一条线的时候,你需要传递线条的开始和结束的坐标。下面的代码创建了黑色的背景以及画了一条从左上到右下的蓝色直线。
画长方形
为了画矩形,你需要给出矩形的左上和右下坐标。这次会在右上画出一个绿色的矩形。
bash
cv.circle(img, (447, 63), 63, (0, 0, 255), -1)
画椭圆
椭圆需要的参数会比较多。第一个参数是中心的位置(x, y)。第二个参数是垂直的两条轴的长度。angle是椭圆沿逆时针方向旋转的角度。startAngle和endAngle是沿顺时针方向椭圆弧端点的夹角(0和360代表了完整的椭圆)。更多的细节可以查看文档。下面的例子在中心画了半个椭圆弧。
bash
cv.ellipse(img, (256, 256), (100, 50), 0, 0, 180, 255, -1)
画多边形
首先你需要所有顶点的坐标。把这些坐标放入一个数据类型为int32的 1×2的矩阵中。下面的例子画了一个黄色四边形
bash
pts = np.array([[10, 5], [20, 30], [70, 20], [50, 10]], np.int32)
pts = pts.reshape((-1, 1, 2))
cv.polylines(img, [pts], True, (0, 255, 255))
如果第三个参数是False,你只会得到折线而不是封闭图形。 cv.pplylines()可以画出折线。只需要把所有你想画的线条放进一个列表,然后传参进去。这比用cv.lines一条一条画要快得多。
给图像添加文字
当使用cv.putText()函数时,确定以下信息:
要写入的文字数据:确定想要在图像上写入的文本内容,例如:"OpenCV"。
放置的位置坐标:选择文字的起始点坐标,通常是左下角作为起点,例如(10, 500)。
字体:选择适合的字体。OpenCV提供了不同的字体,可以在文档中查找支持的字体选项。
字的大小:指定文字的大小,通常以字体高度为单位。例如,字体大小为4。
颜色:选择文字的颜色,以RGB格式表示。例如,白色可以表示为(255, 255, 255)。
线宽和线条种类:可以选择文本的厚度,通常用整数表示。例如,线宽为2。同时,你也可以指定线条的种类,例如cv.LINE_AA,这样可以获得更好的视觉效果。
比如下面的代码在图像上写了白色的OpenCV
bash
font = cv.FONT_HERSHEY_SIMPLEX
cv.putText(img, 'OpenCV', (10, 500), font, 4, (255, 255, 255), 2, cv.LINE_AA)