在机器学习中,绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。就比如图像分类这样的计算机视觉任务,确实依赖于大规模且多样化的训练数据以确保模型能够有效地泛化到未见过的实例上。然而,实践中遭遇训练数据不足是很常见的挑战。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?
一、训练数据不足会造成什么问题?
(1)过拟合
图像分类任务上,训练数据不足带来的问题主要表现在过拟合方面。处理策略大致可以归纳为两大类:
- **依赖模型的方法:**其核心在于采取降低过拟合风险的策略。这包括简化模型结构(例如,将复杂的非线性模型简化为更易处理的线性模型)、引入正则化项以缩小模型假设空间(如采用L1或L2正则化技术)、运用集成学习方法以及调整Dropout超参数等手段。
- **基于数据的方法:**主要通过数据增强技术来实施。这类方法依据特定的先验知识,在保留关键信息的同时对原始数据进行合适的转换,旨在扩展数据集并提高模型的泛化能力。
(2)欠拟合
在图像分类任务上,训练数据不足也有可能带来欠拟合的问题。欠拟合是指模型的复杂度不足以捕捉到数据集中的所有重要特征和模式,导致模型在训练集上的表现也不理想,更不用说在未见过的测试集上了。当训练数据不足时,模型可能无法从有限的样本中学习到足够的信息来概括整个数据分布,表现为模型的泛化能力较弱。
可以通过上面的两种思路来尝试缓解欠拟合:
- **依赖模型的方法:**使用更大规模或者更深层次的神经网络结构,使模型具有更强的学习能力来捕捉数据中的复杂关系。或使用迁移学习、集成学习的方法。
- **基于数据的方法:**数据增强技术,对现有的少量训练数据进行各种变换,例如旋转、翻转、裁剪、缩放、颜色抖动等,以模拟更多的训练样本。
关于跟多过拟合与欠拟合的概念,可以看看我之前的文章:
【机器学习300问】27、高偏差与高方差是什么?他们对评估机器学习模型起何作用?http://t.csdnimg.cn/EalJu
二、如何解决数据不足带来的问题?
这里有很多方法,我之前的文章已经讲过了,我在本文中拓展将一下图像的数据增强技术。
(1)迁移学习
利用预训练的深度学习模型,保留其底层特征提取层,并在顶部添加新的全连接层或卷积层,仅用少量标注图像对该部分进行微调。
【机器学习300问】37、什么是迁移学习?http://t.csdnimg.cn/Q7aQQ
(2)欠采样/过采样技术
对于类别不平衡问题,可以通过欠采样冗余类别或过采样少数类别的方法来平衡数据分布。
【机器学习300问】31、不平衡数据集如何进行机器学习?http://t.csdnimg.cn/f8SL8
(3)数据增强
通过对现有的图像数据进行各种变换,如翻转、旋转、裁剪、缩放、颜色抖动、平移等操作,生成新的训练样本,从而扩大训练集的大小而不引入额外的真实数据。
【机器学习300问】29、训练数据少该怎么办?数据增强http://t.csdnimg.cn/uhLP5
① 色彩空间转换
比如手势识别中,如果图像训练数据过少,可以采取颜色变换的方式增加图像。图像处理中常见的颜色空间分布有 RGB、HSV 和 YCrCb 三种空间模型。比较这三种空间模型后发现 RGB 空间由于亮度信息存在三个颜色通道中,并不相互独立,难以从 RGB 颜色空间中有效提取出手势的肤色信息,而 YCrCb 和 HSV 颜色空间都具有亮度与色度相分离的特点,并且肤色范围紧密,不易受光照后其他物体的干扰,相对来说更适用提取手势的肤色信息。RGB 与 YCrCb 空间转化的计算公式如下所示。
这里的R、G、B代表原始RGB颜色空间中的红色、绿色和蓝色通道值,Y是计算出的亮度值,Cb和Cr是对应于蓝色和红色的色度分量。公式中加上的128是为了将色度分量的取值范围从-127至128调整到0至255的标准8位颜色值区间。通过这种转换后,可以根据Cr和Cb的值来判断像素是否属于肤色区域。
② 二值化
图像的二值化处理是将图像上所有像素点的灰度值设置为 0 或者 255 过程,使得整个图像呈现出明显的黑白效果,通常选取一个合适的阈值,当图像中像素值大于或者等于阈值时判定为前景,将其值设为 255,反之则判定为背景,将其值设为 0。图像的二值化使得图像变得简单明了,通过前景和背景的像素值重置可以有效降低背景噪声,在一定程度增强了特征。
下面介绍一个常用的选取合适阈值的方法------最大类间方差法(也称Otsu)。其基本思想是将图像看做前景目标和背景环境两个部分组成,用两部分像素值的方差来估计前景目标和背景环境之间的差别,通过像素划分各部分出现的概率和平均灰度级来计算两部分的方差,得到使得前景目标和环境背景的类间方差达到最大的灰度级值默认为最佳阈值。最佳阈值的标准判别公式如下所示。
其中,是当前的阈值。和分别是背景(阈值以下)和前景(阈值以上)的像素占比。和分别是背景和前景的像素平均灰度值。表示类间方差,即背景与前景之间的差异。Otsu的方法就是通过遍历全部可能的t值,找到最大化的那个t值,即最佳阈值。在实践中,最大类间方差法是一种高效且自动的阈值选择方法,尤其在物体识别和图像分割中被广泛使用。