OpenCV 入门（五） —— 人脸识别模型训练与 Windows 下的人脸识别

OpenCV 入门系列：

OpenCV 入门（一）------ OpenCV 基础
 OpenCV 入门（二）------ 车牌定位
 OpenCV 入门（三）------ 车牌筛选
 OpenCV 入门（四）------ 车牌号识别
 OpenCV 入门（五）------ 人脸识别模型训练与 Windows 下的人脸识别
 OpenCV 入门（六）------ Android 下的人脸识别
 OpenCV 入门（七）------ 身份证识别

本文主要内容：

如何训练 OpenCV 的人脸识别模型
如何在 Windows 下利用 OpenCV 进行人脸识别

1、概述

人脸识别需要人脸模型（特征集合）的支持，人脸定位的速度与准确度取决于模型。

OpenCV 提供了已经训练好的模型，无论是 Windows 版本还是 Android 版本的 SDK，都在 etc 目录下提供了两种级联分类器模型：

"Haarcascades" 和 "Lbpcascades" 都是级联分类器模型，用于目标检测和识别，特别是在人脸检测领域中常被使用：

Haarcascades 基于 Haar-like 特征（哈尔特征）的级联分类器。Haar-like 特征是一种基于像素差值的特征描述方法，通过计算图像中不同区域的像素值之和的差异，来捕捉图像中的纹理和形状信息。Haarcascades 模型使用了这些特征来构建级联分类器，以在图像中快速检测人脸或其他目标
Lbpcascades 使用的是局部二值模式（Local Binary Patterns，LBP）特征的级联分类器。LBP 特征是一种描述图像纹理的方法，通过比较像素点与其邻域像素的灰度值，将其转化为二进制编码。Lbpcascades 模型利用这些二进制编码来构建级联分类器，用于目标检测和识别，例如人脸检测

两个文件夹内都提供了多种模型用以识别物体，比如 lbpcascades 文件夹下的 lbpcascade_frontalface.xml 可以用于识别人脸，lbpcascade_frontalcatface.xml 用于识别猫脸：

Windows 版本的 SDK 提供了文档与演示代码，在 opencv\sources\doc\tutorials 目录下，比如 objdetect 就是介绍物体识别的。比如 cascade_classifier.markdown 介绍级联分类器，traincascade.markdown 介绍如何训练模型。当然这些文档都是英文的，如果想查看中文文档，可以去 OpenCV 的中国 Wiki 论坛提供的中文文档，比如级联分类器训练。此外演示代码在 opencv\sources\samples\ 目录下，Android 相关的演示在 android 目录中。

除了使用 OpenCV 提供的级联分类器模型，我们也可以使用 OpenCV 提供的工具自己训练模型，具体的操作方法会在下一节介绍。

编码时 Windows 和 Android SDK 使用的都是 4.1.0 版本。

2、人脸模型训练

OpenCV 识别事务实际上就是对事物进行分类。给 OpenCV 各种样本去学习，使得 OpenCV 学习区分不同类别的事物。以人脸为例，给 OpenCV 的正样本全都是各种人脸，负样本全是与人脸无关的事物，那么 OpenCV 就能识别出什么人脸，什么不是。因此供 OpenCV 学习的样本越多越好。

OpenCV 提供的模型可以识别所有人脸，假如现在有个需求，就是只识别某一个人脸，其他的不识别，该如何实现呢？

这就需要自己训练模型了。假如要求只识别你的人脸，那么在采集图像时，保证摄像头内只有你的脸，通过 OpenCV 识别到人脸，然后将人脸部分转为 24 * 24 的灰度图保存到指定的目录内。用目录内的这些小图片通过 OpenCV 提供的工具进行训练，就可以训练出只识别你的脸的模型。

说到 OpenCV 的训练工具，这里要特别说明一下。我们写 Demo 用的是 OpenCV 的 4.1.0 版本，但是在该版本中，训练工具被移除了。在 3.4.X 版本中，这个工具是存在的（如 3.4.6 或 3.4.16 等版本都行）：

因此我们需要再下载一个包含训练工具的 OpenCV 版本，然后在 opencv\build\x64\vc15\bin 目录下找到 opencv_createsamples.exe 和 opencv_traincascade.exe 工具，可以将目录添加到环境变量中。

稍微提一下为什么 OpenCV 4.X 版本中移除了训练工具。早期的 OpenCV 提供了 C 和 C++ 两种风格的 API。比如 C 风格的 CvMat、CvVideoCapture，而 C++ 风格 API 对应的就是 Mat、VideoCapture。

从 4.X 版本开始，OpenCV 移除了 C 风格的 API，而训练工具是用 C 写的，因此在源码 /opencv410/sources/app 目录下的 CMakeLists.txt 文件中，你能看到生成两个训练工具的代码被注释掉了：

即便打开注释也无法编译出这两个训练工具，因为 C 的源码已经被移除了，所以才需要再下载一个带有训练工具的 3.4.X 版本，这也是 OpenCV 官方给出的解决方案。

2.1 训练步骤

训练模型需要正样本和负样本：

正样本就是与目标模型相关性强的。比如训练只识别你的人脸的模型，那么前面收集的人脸灰度图就是正样本
负样本就是与目标模型相关性弱的，甚至没有相关性的。比如训练人脸识别模型，那么负样本就可以是风景图等等

我们将正样本存入 pos 目录，将负样本存入 neg 目录，然后再创建正样本和负样本的描述文件 positive.txt 和 neg.txt：

样本描述文件格式为文件名、人脸数量、每个人脸的起始坐标与宽高范围：

txt 复制代码

2 个人脸分别为 (100,200) 处为左上角，宽高为 50x50 的范围和 (50,30) 处为左上角，宽高为 25x25 的范围
pos/1.jpg 2 100 200 50 50   50 30 25 25

按照上述格式，我们的正样本可以写为：

txt 复制代码

pos/0.jpg 1 0 0 24 24
pos/1.jpg 1 0 0 24 24
pos/2.jpg 1 0 0 24 24
pos/3.jpg 1 0 0 24 24
pos/4.jpg 1 0 0 24 24
pos/5.jpg 1 0 0 24 24
pos/6.jpg 1 0 0 24 24
中间省略...
pos/61.jpg 1 0 0 24 24

负样本也是类似的操作。当然需要注意正负样本的比例最好是 1:3，比如正样本有 100 个，负样本最好就是 300 个。

接下来就使用 OpenCV 提供的工具训练模型：

首先运行 opencv_createsamples 命令创建正样本的向量文件：

shell 复制代码

# -info: 正样本描述文件
# -vec : 输出的正样本向量
# -num : 正样本数量
# -w -h: 输出样本的大小
C:\Users\Desktop\train>opencv_createsamples -info positive.txt -vec pos.vec -num 61 -w 24 -h 24

如果运行成功则会如上图所示在当前目录下生成 pos.vec 文件，log 会输出：

shell 复制代码

Create training samples from images collection...
Done. Created 61 samples

如果因为文件路径不匹配，则运行会报错：

shell 复制代码

Create training samples from images collection...
Unable to open image: pos/pos/1.jpg
OpenCV: terminate handler is called! The last OpenCV error is:
OpenCV(3.4.16) Error: Assertion failed (0 <= roi.x && 0 <= roi.width && roi.x + roi.width <= m.cols && 0 <= roi.y && 0 <= roi.height && roi.y + roi.height <= m.rows) in cv::Mat::Mat, file C:\build\3_4_winpack-build-win64-vc15\opencv\modules\core\src\matrix.cpp, line 751

然后运行 opencv_traincascade 进行训练：

shell 复制代码

# -data ： 需要手动创建，训练的模型作为结果会输出到这个目录
# -vec  ： 正样本	
# -bg	  ： 负样本
# -numPos ：每级分类器训练时所用到的正样本数目
# -numNeg ：每级分类器训练时所用到的负样本数目，可以大于 -bg 数目
# -numStages：训练分类器的级数，如果层数多，分类器的误差就更小，但是检测速度慢。(15-20)
# -featureType: 采用 LBP 算法
# -w -h：负样本的宽高可以设置的随意些，只要起始点 + 宽高不超过图片像素范围即可
C:\Users\Desktop\train>opencv_traincascade -data data -vec pos.vec -bg neg.txt -numPos 61 -numNeg 300 -numStages 15 -featureType LBP -w 24 -h 24

如果你没有手动创建 data 目录，运行上述命令会报错说无法打开 data/params.xml 文件：

shell 复制代码

===== TRAINING 0-stage =====
<BEGIN
POS count : consumed   61 : 61
NEG count : acceptanceRatio    300 : 1
Precalculation time: 0.026
+----+---------+---------+
|  N |    HR   |    FA   |
+----+---------+---------+
|   1|        1|        0|
+----+---------+---------+
END>
Parameters can not be written, because file data/params.xml can not be opened.

创建 data 后再次运行可能会有如下结果之一：

shell 复制代码

# 1.训练成功
Training until now has taken 0 days 0 hours 0 minutes 10 seconds.

# 2.可以认为该训练阶段是成功的，达到了所需的叶子误报率，并且分支训练已经终止（样本太少，模型质量不行）
Required leaf false alarm rate achieved. Branch training terminated.

# 3.错误
Bad argument < Can not get new positive sample. The most possible reason is insufficient count of samples in given vec-file.

训练成功后会在 data 目录下得到如下文件：

cascade.xml 就是我们训练出的库文件，将其拷贝到手机中，修改代码，用 cascade.xml 替代 OpenCV 提供的 lbpcascade_frontalface.xml：

kotlin 复制代码

		// 初始化 OpenCV
        val path = File(
            Environment.getExternalStorageDirectory(),
            /*"lbpcascade_frontalface.xml"*/
            "cascade.xml"
        ).absolutePath
        mOpenCVJNI.init(path)

使用 cascade.xml 模型去做人脸识别时，就只会识别训练样本中的人脸，而不会像 OpenCV 提供的 lbpcascade_frontalface.xml 识别所有人脸，这种识别特定人脸的需求与我们上班打卡的机器原理是类似的。

这里简单说下训练样本数量的选取标准。

minHitRate 是分类器的每一级希望得到的最小检测率。当设置为 0.995 时如果正训练样本个数为 100 个，那么其中的 0.5 个就很可能不被检测，第二次选择的时候必须多选择后面的 5 个，按照这种规律我们为后面的每级多增加 numPos*minHitRate 个正样本。

实际准备的正样本数量应该（读入 vec 的正样本数） >= numPos + (numStage - 1) * numPos * (1 - minHitRate)

按照此公式计算： x+14*x*0.005 = 1.07*x,也就是正样本数量要大于等于 1.07*x 而我们正样本是 100，所以 x = 93.45，但是此处传 100 也可以。

因为实际的检测率会比 minHitRate 高，所以在设置 numPos 时可以将其设置的稍微再大些，最终的目的是要尽量让所有的正样本都参与到训练中。但是，过大就会出错。

2.2 算法简介

LBP（Local Binary Patterns，局部二值模式）是一种用于纹理分析和模式识别的图像特征描述算法。它于 1994 年由 Ojala 等人提出，并被广泛应用于人脸识别、纹理分类、物体检测和图像检索等领域。

LBP 算法的基本思想是对图像中的每个像素点，根据其周围像素的灰度值进行编码，形成一个局部的二值模式。该编码方法具有旋转不变性和灰度不变性的特点，使得 LBP 特征适用于处理灰度图像。

LBP 算法的步骤如下：

对于图像中的每个像素点，选择一个固定大小的邻域窗口（通常为 3 × 3 或 5 × 5 的正方形）。
将邻域窗口中心像素的灰度值与邻域窗口中的其他像素逐一比较，若中心像素的灰度值大于或等于相邻像素的灰度值，则该像素点的位置被标记为 1，否则标记为 0。
将邻域窗口中的 8 个二值编码按顺时针或逆时针顺序排列，形成一个 8 位二进制数，即得到该像素点的 LBP 编码。
遍历图像中的所有像素点，重复步骤 2 和步骤 3，得到整幅图像的 LBP 编码图像。
统计 LBP 编码图像中不同 LBP 模式的出现频率，作为图像的 LBP 特征向量。

LBP 算法的主要优点是计算简单、特征表达能力强、对光照变化具有一定的不变性。然而，它也有一些不足之处，例如对噪声和旋转变化敏感。

我们要清楚，人工智能都是基于大数据的。用上万张图片训练出模型用于物体识别。

3、Windows 人脸识别

这一节现在 Windows 上实现人脸识别，因为 Windows 上查看中间结果（灰度图、直方图等等）比较方便。我们在 Visual Studio 中新建项目，驱动电脑的摄像头进行人脸识别。

3.1 代码实现

实现过程大致可分为三步：

加载 OpenCV 提供的级联分类器以具备人脸识别能力
打开摄像头
对摄像头采集到的数据进行灰度化、均衡化处理后进行人脸识别，在识别出人脸的位置画一个矩形

代码如下：

cpp 复制代码

void detect() {
	// 1.加载级联分类器
	if (!face_CascadeClassifier.load("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml")) {
		cout << "级联分类器加载失败！" << endl;
	}

	// 2.开启摄像头进行录制
	VideoCapture capture;
	capture.open(0);
	if (!capture.isOpened())
	{
		cout << "OpenCV 打开摄像头失败！\n" << endl;
		return;
	}

	// 3.处理采集到的图像
	Mat frame; // 摄像头彩色图像
	Mat gray; // 摄像头灰度图像
	while (true)
	{
		// 采集到的图像存入 frame
		capture >> frame;
		if (frame.empty()) {
			cout << "OpenCV 读取摄像头图像失败!" << endl;
			return;
		}

		// 灰度化处理，注意 OpenCV 颜色排序为 BGR
		cvtColor(frame, gray, COLOR_BGR2GRAY);

		// 直方图均衡化，增强对比度
		equalizeHist(gray, gray);

		// 一张图片可能包含多张人脸，因此保存结果的是一个集合
		vector<Rect> faces;

        // 对灰度图进行人脸识别，识别结果保存在 faces 集合中
		face_CascadeClassifier.detectMultiScale(gray, faces);

		for each (Rect face in faces)
		{
			// 在 frame 这张图片的 face 上画一个 BGR 颜色为 (0, 0, 255) 即红色的矩形
			rectangle(frame, face, Scalar(0, 0, 255));
			// 这种方式来检测相机实时人脸图像非常卡顿！只适合静态图像的检测
		}
		// 显示图像
		imshow("摄像头", frame);
		// wait 30ms，如果按 Esc 键就退出
		if (waitKey(30) == 27)
		{
			break;
		}
	}
}

人脸识别不需要图片的颜色，正相反，图片的颜色对于识别是一个干扰项，因此在识别之前通常要进行降噪处理，将图片处理成灰度图。

运行起来会发现虽然确实可以识别出人脸，在人脸位置画一个红色矩形，但是图像非常卡顿。这是因为不论是 OpenCV 还是 TensorFlow，检测人脸都是很耗时的，检测一次大概需要 1 ~ 2 秒的时间。因此我们不能向上面这样，对每一帧视频图片都进行检测，而是先检测到人脸，后续采用人脸跟踪。

下面对上述代码进行改造。

3.2 代码优化

上面提到，优化视频画面卡顿的方法是检测第一帧，检测到后，对后续的帧进行人脸跟踪。那么在 OpenCV 中，人脸检测的任务交给主检测适配器，人脸跟踪的任务交给跟踪检测适配器。这两种适配器必须是 DetectionBasedTracker::IDetector 的子类。我们直接使用 OpenCV 提供的代码示例 opencv\sources\samples\android\face-detection\jni\DetectionBasedTracker_jni.cpp 中定义的 CascadeDetectorAdapter 写入 OpenCV.h：

cpp 复制代码

# pragma once

#include <iostream>
#include <opencv2/opencv.hpp>

using namespace std;
using namespace cv;

CascadeClassifier face_CascadeClassifier;
cv::Ptr<DetectionBasedTracker> tracker;

class CascadeDetectorAdapter : public DetectionBasedTracker::IDetector
{
public:
	CascadeDetectorAdapter(cv::Ptr<cv::CascadeClassifier> detector) :
		IDetector(),
		Detector(detector)
	{
		CV_Assert(detector);
	}

    // 每张 Image 图片中都可能会有多张人脸 objects，因此可能会多次调用 detect 进行识别
	void detect(const cv::Mat& Image, std::vector<cv::Rect>& objects)
	{
		Detector->detectMultiScale(Image, objects, scaleFactor, minNeighbours, 0, minObjSize, maxObjSize);
	}

	virtual ~CascadeDetectorAdapter()
	{
	}

private:
	CascadeDetectorAdapter();
	cv::Ptr<cv::CascadeClassifier> Detector;
};

接下来我们通过宏定义的方式在原始代码上进行优化，加入使用跟随策略进行人脸检测的代码：

cpp 复制代码

// 定义此宏则收集人脸图片数据保存到指定位置
#define COLLECT_SAMPLES
// 收集的人脸图片编号
int i = 0;

// 一次识别，后续跟踪来解决只通过检测的方式的卡顿问题
void track() {
// 如果定义了 DETECT 宏，则每一帧都进行检测，否则只检测一帧，后续跟随，这里我们没有定义这个宏
#ifdef DETECT
	// 1.加载级联分类器，注意路径一定是斜杠而不是反斜杠，否则会加载失败
	if (!face_CascadeClassifier.load("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml")) {
		cout << "级联分类器加载失败！" << endl;
		return;
	}
#else
	// 2.创建跟踪器并运行
	// 2.1 创建主检测适配器
	cv::Ptr<CascadeDetectorAdapter> mainDetector = makePtr<CascadeDetectorAdapter>(
		makePtr<CascadeClassifier>("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml"));
	// 2.2 创建跟踪检测适配器
	cv::Ptr<CascadeDetectorAdapter> trackingDetector = makePtr<CascadeDetectorAdapter>(
		makePtr<CascadeClassifier>("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml"));
	// 2.3 创建跟踪器
	DetectionBasedTracker::Parameters DetectorParams;
	tracker = makePtr<DetectionBasedTracker>(mainDetector, trackingDetector, DetectorParams);
	// 2.4 开始检测
	tracker->run();
#endif

	// 3.开启摄像头进行录制
	VideoCapture capture;
	capture.open(0);
	if (!capture.isOpened())
	{
		cout << "OpenCV 打开摄像头失败！\n" << endl;
		return ;
	}

	// 4.处理采集到的图像
	Mat frame; // 摄像头彩色图像
	Mat gray; // 摄像头灰度图像
	while (true)
	{
		// 采集到的图像存入 frame
		capture >> frame;
		if (frame.empty()) {
			cout << "OpenCV 读取摄像头图像失败！\n" << endl;
			return ;
		}

		// 灰度化处理，注意 OpenCV 颜色排序为 BGR
		cvtColor(frame, gray, COLOR_BGR2GRAY);

		// 直方图均衡化，增强对比度
		equalizeHist(gray, gray);

		// 一张图片可能包含多张人脸，因此要保存在 faces 集合中
		vector<Rect> faces;
// 如果每帧都识别，则通过 detectMultiScale，否则用 tracker 进行识别
#ifdef DETECT
		face_CascadeClassifier.detectMultiScale(gray, faces);
#else
		tracker->process(gray);
		tracker->getObjects(faces);
#endif // DETECT
		for each (Rect face in faces)
		{
			// 在 frame 这张图片的 face 上画一个 BGR 颜色为 (0, 0, 255) 即红色的矩形
			rectangle(frame, face, Scalar(0, 0, 255));
			// 这种方式来检测相机实时人脸图像非常卡顿！只适合静态图像的检测

#ifdef COLLECT_SAMPLES
			// 采集人脸样本，转换为 24 * 24 的灰度图保存到指定路径的文件中
			Mat sample;
			frame(face).copyTo(sample);
			resize(sample, sample, Size(24, 24));
			cvtColor(sample, sample, COLOR_BGR2GRAY);
			char p[100];
			// 目录需要手动创建，否则不会自动生成
			sprintf(p, "D:/opencv/train/face/pos/%d.jpg", i++);
			//imread 读取文件图像
			imwrite(p, sample);//将Mat写入文件	
#endif // COLLECT_SAMPLES
		}

		// 显示图像
		imshow("摄像头", frame);
		// Esc 键退出
		if (waitKey(30) == 27)
		{
			break;
		}
	}
#ifndef DETECT
	tracker->stop();
#endif // !DETECT
}

简要说明：

在第 2 步创建跟踪器时，使用了 OpenCV 的智能指针 Ptr 模板类，它采用引用计数型的句柄类实现计数。自动管理对象的释放，Ptr 中调用 release() 会将引用计数器减 1，如果计数器为 0 则会删除该对象。使用 Ptr 声明的对象可以不用手动释放
创建的 mainDetector 负责检测，trackingDetector 负责跟随，调用 tracker->run() 会开启一个线程，其内部有一个无限循环，当 tracker->process() 传入灰度图开始检测后，检测到的人脸数据可以通过 tracker->getObjects(faces) 获取，faces 是一个 vector<Rect> 类型的入参出参数据，保存着一张图片中的所有人脸
我们定义了 COLLECT_SAMPLES 宏用来收集人脸数据，将采集到的人脸图像转成灰度图再把尺寸设置为 24 * 24 保存在指定目录中，这些图片可以帮助我们使用 2.1 节中介绍的方法训练自己的模型

应用以上代码后就可以流畅的识别出人脸了。