OpenCV 入门(五) —— 人脸识别模型训练与 Windows 下的人脸识别

OpenCV 入门系列:

OpenCV 入门(一)------ OpenCV 基础
OpenCV 入门(二)------ 车牌定位
OpenCV 入门(三)------ 车牌筛选
OpenCV 入门(四)------ 车牌号识别
OpenCV 入门(五)------ 人脸识别模型训练与 Windows 下的人脸识别
OpenCV 入门(六)------ Android 下的人脸识别
OpenCV 入门(七)------ 身份证识别

本文主要内容:

  1. 如何训练 OpenCV 的人脸识别模型
  2. 如何在 Windows 下利用 OpenCV 进行人脸识别

1、概述

人脸识别需要人脸模型(特征集合)的支持,人脸定位的速度与准确度取决于模型。

OpenCV 提供了已经训练好的模型,无论是 Windows 版本还是 Android 版本的 SDK,都在 etc 目录下提供了两种级联分类器模型:

"Haarcascades" 和 "Lbpcascades" 都是级联分类器模型,用于目标检测和识别,特别是在人脸检测领域中常被使用:

  • Haarcascades 基于 Haar-like 特征(哈尔特征)的级联分类器。Haar-like 特征是一种基于像素差值的特征描述方法,通过计算图像中不同区域的像素值之和的差异,来捕捉图像中的纹理和形状信息。Haarcascades 模型使用了这些特征来构建级联分类器,以在图像中快速检测人脸或其他目标
  • Lbpcascades 使用的是局部二值模式(Local Binary Patterns,LBP)特征的级联分类器。LBP 特征是一种描述图像纹理的方法,通过比较像素点与其邻域像素的灰度值,将其转化为二进制编码。Lbpcascades 模型利用这些二进制编码来构建级联分类器,用于目标检测和识别,例如人脸检测

两个文件夹内都提供了多种模型用以识别物体,比如 lbpcascades 文件夹下的 lbpcascade_frontalface.xml 可以用于识别人脸,lbpcascade_frontalcatface.xml 用于识别猫脸:

Windows 版本的 SDK 提供了文档与演示代码,在 opencv\sources\doc\tutorials 目录下,比如 objdetect 就是介绍物体识别的。比如 cascade_classifier.markdown 介绍级联分类器,traincascade.markdown 介绍如何训练模型。当然这些文档都是英文的,如果想查看中文文档,可以去 OpenCV 的中国 Wiki 论坛提供的中文文档,比如级联分类器训练。此外演示代码在 opencv\sources\samples\ 目录下,Android 相关的演示在 android 目录中。

除了使用 OpenCV 提供的级联分类器模型,我们也可以使用 OpenCV 提供的工具自己训练模型,具体的操作方法会在下一节介绍。

编码时 Windows 和 Android SDK 使用的都是 4.1.0 版本。

2、人脸模型训练

OpenCV 识别事务实际上就是对事物进行分类。给 OpenCV 各种样本去学习,使得 OpenCV 学习区分不同类别的事物。以人脸为例,给 OpenCV 的正样本全都是各种人脸,负样本全是与人脸无关的事物,那么 OpenCV 就能识别出什么人脸,什么不是。因此供 OpenCV 学习的样本越多越好。

OpenCV 提供的模型可以识别所有人脸,假如现在有个需求,就是只识别某一个人脸,其他的不识别,该如何实现呢?

这就需要自己训练模型了。假如要求只识别你的人脸,那么在采集图像时,保证摄像头内只有你的脸,通过 OpenCV 识别到人脸,然后将人脸部分转为 24 * 24 的灰度图保存到指定的目录内。用目录内的这些小图片通过 OpenCV 提供的工具进行训练,就可以训练出只识别你的脸的模型。

说到 OpenCV 的训练工具,这里要特别说明一下。我们写 Demo 用的是 OpenCV 的 4.1.0 版本,但是在该版本中,训练工具被移除了。在 3.4.X 版本中,这个工具是存在的(如 3.4.6 或 3.4.16 等版本都行):

因此我们需要再下载一个包含训练工具的 OpenCV 版本,然后在 opencv\build\x64\vc15\bin 目录下找到 opencv_createsamples.exe 和 opencv_traincascade.exe 工具,可以将目录添加到环境变量中。

稍微提一下为什么 OpenCV 4.X 版本中移除了训练工具。早期的 OpenCV 提供了 C 和 C++ 两种风格的 API。比如 C 风格的 CvMat、CvVideoCapture,而 C++ 风格 API 对应的就是 Mat、VideoCapture。

从 4.X 版本开始,OpenCV 移除了 C 风格的 API,而训练工具是用 C 写的,因此在源码 /opencv410/sources/app 目录下的 CMakeLists.txt 文件中,你能看到生成两个训练工具的代码被注释掉了:

即便打开注释也无法编译出这两个训练工具,因为 C 的源码已经被移除了,所以才需要再下载一个带有训练工具的 3.4.X 版本,这也是 OpenCV 官方给出的解决方案。

2.1 训练步骤

训练模型需要正样本和负样本:

  • 正样本就是与目标模型相关性强的。比如训练只识别你的人脸的模型,那么前面收集的人脸灰度图就是正样本
  • 负样本就是与目标模型相关性弱的,甚至没有相关性的。比如训练人脸识别模型,那么负样本就可以是风景图等等

我们将正样本存入 pos 目录,将负样本存入 neg 目录,然后再创建正样本和负样本的描述文件 positive.txt 和 neg.txt:

样本描述文件格式为文件名、人脸数量、每个人脸的起始坐标与宽高范围:

txt 复制代码
2 个人脸分别为 (100,200) 处为左上角,宽高为 50x50 的范围和 (50,30) 处为左上角,宽高为 25x25 的范围
pos/1.jpg 2 100 200 50 50   50 30 25 25

按照上述格式,我们的正样本可以写为:

txt 复制代码
pos/0.jpg 1 0 0 24 24
pos/1.jpg 1 0 0 24 24
pos/2.jpg 1 0 0 24 24
pos/3.jpg 1 0 0 24 24
pos/4.jpg 1 0 0 24 24
pos/5.jpg 1 0 0 24 24
pos/6.jpg 1 0 0 24 24
中间省略...
pos/61.jpg 1 0 0 24 24

负样本也是类似的操作。当然需要注意正负样本的比例最好是 1:3,比如正样本有 100 个,负样本最好就是 300 个。

接下来就使用 OpenCV 提供的工具训练模型:

  • 首先运行 opencv_createsamples 命令创建正样本的向量文件:

    shell 复制代码
    # -info: 正样本描述文件
    # -vec : 输出的正样本向量
    # -num : 正样本数量
    # -w -h: 输出样本的大小
    C:\Users\Desktop\train>opencv_createsamples -info positive.txt -vec pos.vec -num 61 -w 24 -h 24

    如果运行成功则会如上图所示在当前目录下生成 pos.vec 文件,log 会输出:

    shell 复制代码
    Create training samples from images collection...
    Done. Created 61 samples

    如果因为文件路径不匹配,则运行会报错:

    shell 复制代码
    Create training samples from images collection...
    Unable to open image: pos/pos/1.jpg
    OpenCV: terminate handler is called! The last OpenCV error is:
    OpenCV(3.4.16) Error: Assertion failed (0 <= roi.x && 0 <= roi.width && roi.x + roi.width <= m.cols && 0 <= roi.y && 0 <= roi.height && roi.y + roi.height <= m.rows) in cv::Mat::Mat, file C:\build\3_4_winpack-build-win64-vc15\opencv\modules\core\src\matrix.cpp, line 751
  • 然后运行 opencv_traincascade 进行训练:

    shell 复制代码
    # -data : 需要手动创建,训练的模型作为结果会输出到这个目录
    # -vec  : 正样本	
    # -bg	  : 负样本
    # -numPos :每级分类器训练时所用到的正样本数目
    # -numNeg :每级分类器训练时所用到的负样本数目,可以大于 -bg 数目
    # -numStages:训练分类器的级数,如果层数多,分类器的误差就更小,但是检测速度慢。(15-20)
    # -featureType: 采用 LBP 算法
    # -w -h:负样本的宽高可以设置的随意些,只要起始点 + 宽高不超过图片像素范围即可
    C:\Users\Desktop\train>opencv_traincascade -data data -vec pos.vec -bg neg.txt -numPos 61 -numNeg 300 -numStages 15 -featureType LBP -w 24 -h 24

    如果你没有手动创建 data 目录,运行上述命令会报错说无法打开 data/params.xml 文件:

    shell 复制代码
    ===== TRAINING 0-stage =====
    <BEGIN
    POS count : consumed   61 : 61
    NEG count : acceptanceRatio    300 : 1
    Precalculation time: 0.026
    +----+---------+---------+
    |  N |    HR   |    FA   |
    +----+---------+---------+
    |   1|        1|        0|
    +----+---------+---------+
    END>
    Parameters can not be written, because file data/params.xml can not be opened.

    创建 data 后再次运行可能会有如下结果之一:

    shell 复制代码
    # 1.训练成功
    Training until now has taken 0 days 0 hours 0 minutes 10 seconds.
    
    # 2.可以认为该训练阶段是成功的,达到了所需的叶子误报率,并且分支训练已经终止(样本太少,模型质量不行)
    Required leaf false alarm rate achieved. Branch training terminated.
    
    # 3.错误
    Bad argument < Can not get new positive sample. The most possible reason is insufficient count of samples in given vec-file.

训练成功后会在 data 目录下得到如下文件:

cascade.xml 就是我们训练出的库文件,将其拷贝到手机中,修改代码,用 cascade.xml 替代 OpenCV 提供的 lbpcascade_frontalface.xml:

kotlin 复制代码
		// 初始化 OpenCV
        val path = File(
            Environment.getExternalStorageDirectory(),
            /*"lbpcascade_frontalface.xml"*/
            "cascade.xml"
        ).absolutePath
        mOpenCVJNI.init(path)

使用 cascade.xml 模型去做人脸识别时,就只会识别训练样本中的人脸,而不会像 OpenCV 提供的 lbpcascade_frontalface.xml 识别所有人脸,这种识别特定人脸的需求与我们上班打卡的机器原理是类似的。

这里简单说下训练样本数量的选取标准。

minHitRate 是分类器的每一级希望得到的最小检测率。当设置为 0.995 时如果正训练样本个数为 100 个,那么其中的 0.5 个就很可能不被检测,第二次选择的时候必须多选择后面的 5 个,按照这种规律我们为后面的每级多增加 numPos*minHitRate 个正样本。

实际准备的正样本数量应该(读入 vec 的正样本数) >= numPos + (numStage - 1) * numPos * (1 - minHitRate)

按照此公式计算: x+14*x*0.005 = 1.07*x,也就是正样本数量要大于等于 1.07*x 而我们正样本是 100,所以 x = 93.45,但是此处传 100 也可以。

因为实际的检测率会比 minHitRate 高,所以在设置 numPos 时可以将其设置的稍微再大些,最终的目的是要尽量让所有的正样本都参与到训练中。但是,过大就会出错。

2.2 算法简介

LBP(Local Binary Patterns,局部二值模式)是一种用于纹理分析和模式识别的图像特征描述算法。它于 1994 年由 Ojala 等人提出,并被广泛应用于人脸识别、纹理分类、物体检测和图像检索等领域。

LBP 算法的基本思想是对图像中的每个像素点,根据其周围像素的灰度值进行编码,形成一个局部的二值模式。该编码方法具有旋转不变性和灰度不变性的特点,使得 LBP 特征适用于处理灰度图像。

LBP 算法的步骤如下:

  1. 对于图像中的每个像素点,选择一个固定大小的邻域窗口(通常为 3 × 3 或 5 × 5 的正方形)。

  2. 将邻域窗口中心像素的灰度值与邻域窗口中的其他像素逐一比较,若中心像素的灰度值大于或等于相邻像素的灰度值,则该像素点的位置被标记为 1,否则标记为 0。

  3. 将邻域窗口中的 8 个二值编码按顺时针或逆时针顺序排列,形成一个 8 位二进制数,即得到该像素点的 LBP 编码。

  4. 遍历图像中的所有像素点,重复步骤 2 和步骤 3,得到整幅图像的 LBP 编码图像。

  5. 统计 LBP 编码图像中不同 LBP 模式的出现频率,作为图像的 LBP 特征向量。

LBP 算法的主要优点是计算简单、特征表达能力强、对光照变化具有一定的不变性。然而,它也有一些不足之处,例如对噪声和旋转变化敏感。

我们要清楚,人工智能都是基于大数据的。用上万张图片训练出模型用于物体识别。

3、Windows 人脸识别

这一节现在 Windows 上实现人脸识别,因为 Windows 上查看中间结果(灰度图、直方图等等)比较方便。我们在 Visual Studio 中新建项目,驱动电脑的摄像头进行人脸识别。

3.1 代码实现

实现过程大致可分为三步:

  1. 加载 OpenCV 提供的级联分类器以具备人脸识别能力
  2. 打开摄像头
  3. 对摄像头采集到的数据进行灰度化、均衡化处理后进行人脸识别,在识别出人脸的位置画一个矩形

代码如下:

cpp 复制代码
void detect() {
	// 1.加载级联分类器
	if (!face_CascadeClassifier.load("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml")) {
		cout << "级联分类器加载失败!" << endl;
	}

	// 2.开启摄像头进行录制
	VideoCapture capture;
	capture.open(0);
	if (!capture.isOpened())
	{
		cout << "OpenCV 打开摄像头失败!\n" << endl;
		return;
	}

	// 3.处理采集到的图像
	Mat frame; // 摄像头彩色图像
	Mat gray; // 摄像头灰度图像
	while (true)
	{
		// 采集到的图像存入 frame
		capture >> frame;
		if (frame.empty()) {
			cout << "OpenCV 读取摄像头图像失败!" << endl;
			return;
		}

		// 灰度化处理,注意 OpenCV 颜色排序为 BGR
		cvtColor(frame, gray, COLOR_BGR2GRAY);

		// 直方图均衡化,增强对比度
		equalizeHist(gray, gray);

		// 一张图片可能包含多张人脸,因此保存结果的是一个集合
		vector<Rect> faces;

        // 对灰度图进行人脸识别,识别结果保存在 faces 集合中
		face_CascadeClassifier.detectMultiScale(gray, faces);

		for each (Rect face in faces)
		{
			// 在 frame 这张图片的 face 上画一个 BGR 颜色为 (0, 0, 255) 即红色的矩形
			rectangle(frame, face, Scalar(0, 0, 255));
			// 这种方式来检测相机实时人脸图像非常卡顿!只适合静态图像的检测
		}
		// 显示图像
		imshow("摄像头", frame);
		// wait 30ms,如果按 Esc 键就退出
		if (waitKey(30) == 27)
		{
			break;
		}
	}
}

人脸识别不需要图片的颜色,正相反,图片的颜色对于识别是一个干扰项,因此在识别之前通常要进行降噪处理,将图片处理成灰度图。

运行起来会发现虽然确实可以识别出人脸,在人脸位置画一个红色矩形,但是图像非常卡顿。这是因为不论是 OpenCV 还是 TensorFlow,检测人脸都是很耗时的,检测一次大概需要 1 ~ 2 秒的时间。因此我们不能向上面这样,对每一帧视频图片都进行检测,而是先检测到人脸,后续采用人脸跟踪。

下面对上述代码进行改造。

3.2 代码优化

上面提到,优化视频画面卡顿的方法是检测第一帧,检测到后,对后续的帧进行人脸跟踪。那么在 OpenCV 中,人脸检测的任务交给主检测适配器,人脸跟踪的任务交给跟踪检测适配器。这两种适配器必须是 DetectionBasedTracker::IDetector 的子类。我们直接使用 OpenCV 提供的代码示例 opencv\sources\samples\android\face-detection\jni\DetectionBasedTracker_jni.cpp 中定义的 CascadeDetectorAdapter 写入 OpenCV.h:

cpp 复制代码
# pragma once

#include <iostream>
#include <opencv2/opencv.hpp>

using namespace std;
using namespace cv;

CascadeClassifier face_CascadeClassifier;
cv::Ptr<DetectionBasedTracker> tracker;

class CascadeDetectorAdapter : public DetectionBasedTracker::IDetector
{
public:
	CascadeDetectorAdapter(cv::Ptr<cv::CascadeClassifier> detector) :
		IDetector(),
		Detector(detector)
	{
		CV_Assert(detector);
	}

    // 每张 Image 图片中都可能会有多张人脸 objects,因此可能会多次调用 detect 进行识别
	void detect(const cv::Mat& Image, std::vector<cv::Rect>& objects)
	{
		Detector->detectMultiScale(Image, objects, scaleFactor, minNeighbours, 0, minObjSize, maxObjSize);
	}

	virtual ~CascadeDetectorAdapter()
	{
	}

private:
	CascadeDetectorAdapter();
	cv::Ptr<cv::CascadeClassifier> Detector;
};

接下来我们通过宏定义的方式在原始代码上进行优化,加入使用跟随策略进行人脸检测的代码:

cpp 复制代码
// 定义此宏则收集人脸图片数据保存到指定位置
#define COLLECT_SAMPLES
// 收集的人脸图片编号
int i = 0;

// 一次识别,后续跟踪来解决只通过检测的方式的卡顿问题
void track() {
// 如果定义了 DETECT 宏,则每一帧都进行检测,否则只检测一帧,后续跟随,这里我们没有定义这个宏
#ifdef DETECT
	// 1.加载级联分类器,注意路径一定是斜杠而不是反斜杠,否则会加载失败
	if (!face_CascadeClassifier.load("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml")) {
		cout << "级联分类器加载失败!" << endl;
		return;
	}
#else
	// 2.创建跟踪器并运行
	// 2.1 创建主检测适配器
	cv::Ptr<CascadeDetectorAdapter> mainDetector = makePtr<CascadeDetectorAdapter>(
		makePtr<CascadeClassifier>("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml"));
	// 2.2 创建跟踪检测适配器
	cv::Ptr<CascadeDetectorAdapter> trackingDetector = makePtr<CascadeDetectorAdapter>(
		makePtr<CascadeClassifier>("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml"));
	// 2.3 创建跟踪器
	DetectionBasedTracker::Parameters DetectorParams;
	tracker = makePtr<DetectionBasedTracker>(mainDetector, trackingDetector, DetectorParams);
	// 2.4 开始检测
	tracker->run();
#endif

	// 3.开启摄像头进行录制
	VideoCapture capture;
	capture.open(0);
	if (!capture.isOpened())
	{
		cout << "OpenCV 打开摄像头失败!\n" << endl;
		return ;
	}

	// 4.处理采集到的图像
	Mat frame; // 摄像头彩色图像
	Mat gray; // 摄像头灰度图像
	while (true)
	{
		// 采集到的图像存入 frame
		capture >> frame;
		if (frame.empty()) {
			cout << "OpenCV 读取摄像头图像失败!\n" << endl;
			return ;
		}

		// 灰度化处理,注意 OpenCV 颜色排序为 BGR
		cvtColor(frame, gray, COLOR_BGR2GRAY);

		// 直方图均衡化,增强对比度
		equalizeHist(gray, gray);

		// 一张图片可能包含多张人脸,因此要保存在 faces 集合中
		vector<Rect> faces;
// 如果每帧都识别,则通过 detectMultiScale,否则用 tracker 进行识别
#ifdef DETECT
		face_CascadeClassifier.detectMultiScale(gray, faces);
#else
		tracker->process(gray);
		tracker->getObjects(faces);
#endif // DETECT
		for each (Rect face in faces)
		{
			// 在 frame 这张图片的 face 上画一个 BGR 颜色为 (0, 0, 255) 即红色的矩形
			rectangle(frame, face, Scalar(0, 0, 255));
			// 这种方式来检测相机实时人脸图像非常卡顿!只适合静态图像的检测

#ifdef COLLECT_SAMPLES
			// 采集人脸样本,转换为 24 * 24 的灰度图保存到指定路径的文件中
			Mat sample;
			frame(face).copyTo(sample);
			resize(sample, sample, Size(24, 24));
			cvtColor(sample, sample, COLOR_BGR2GRAY);
			char p[100];
			// 目录需要手动创建,否则不会自动生成
			sprintf(p, "D:/opencv/train/face/pos/%d.jpg", i++);
			//imread 读取文件图像
			imwrite(p, sample);//将Mat写入文件	
#endif // COLLECT_SAMPLES
		}

		// 显示图像
		imshow("摄像头", frame);
		// Esc 键退出
		if (waitKey(30) == 27)
		{
			break;
		}
	}
#ifndef DETECT
	tracker->stop();
#endif // !DETECT
}

简要说明:

  • 在第 2 步创建跟踪器时,使用了 OpenCV 的智能指针 Ptr 模板类,它采用引用计数型的句柄类实现计数。自动管理对象的释放,Ptr 中调用 release() 会将引用计数器减 1,如果计数器为 0 则会删除该对象。使用 Ptr 声明的对象可以不用手动释放
  • 创建的 mainDetector 负责检测,trackingDetector 负责跟随,调用 tracker->run() 会开启一个线程,其内部有一个无限循环,当 tracker->process() 传入灰度图开始检测后,检测到的人脸数据可以通过 tracker->getObjects(faces) 获取,faces 是一个 vector<Rect> 类型的入参出参数据,保存着一张图片中的所有人脸
  • 我们定义了 COLLECT_SAMPLES 宏用来收集人脸数据,将采集到的人脸图像转成灰度图再把尺寸设置为 24 * 24 保存在指定目录中,这些图片可以帮助我们使用 2.1 节中介绍的方法训练自己的模型

应用以上代码后就可以流畅的识别出人脸了。

相关推荐
HPC_fac130520678161 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
安静读书3 小时前
Python解析视频FPS(帧率)、分辨率信息
python·opencv·音视频
小陈phd3 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao5 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
长亭外的少年7 小时前
Kotlin 编译失败问题及解决方案:从守护进程到 Gradle 配置
android·开发语言·kotlin
ZHOU_WUYI8 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1238 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界9 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221519 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2519 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台