机器学习是对能通过经验自动改进的计算机算法的研究.
------汤姆·米切尔(Tom Mitchell)[Mitchell, 1997]
思考一个问题:
如何让计算机能自动识别手写的数字?
---------------------------------------------------分割线--------------------------------------------------------------
一、首先我们需要弄清楚的一些基本概念:
1、特征(Feature)
(1)特征指什么?
在机器学习中,特征(Feature) 是指用于描述数据中某些关键属性或模式的度量或属性,是输入数据的基本单位。特征是机器学习模型用来学习、推断和预测的核心信息。可以说,特征是数据与机器学习算法之间的桥梁。
特征是机器学习模型用来理解数据的关键。简单来说:
- 特征 = 数据的属性或变量,能够帮助模型完成任务。
- 特征是输入数据的具体表现形式,用来描述对象或样本。
例如:
- 房价预测问题:特征可以是房子的面积、房间数、位置、建造年份等。
- 图像分类问题:特征可以是像素值、颜色分布、纹理、边缘等。
- 文本分类问题:特征可以是词频、词语的语义表示(如词向量)等。
(2)特征的作用:
特征是机器学习模型用来理解和处理数据的关键。特征的作用体现在以下几个方面:
- 信息表达:特征将原始数据中的信息提取并表达为数值形式,便于模型处理。
- 模式识别:模型通过学习特征与目标输出之间的关系,从而识别数据中的规律或模式。
- 预测能力:高质量的特征直接决定了模型的预测能力。
(3)特征的分类:
A、 根据数据类型
- 数值特征 :连续型变量(如温度、年龄、房价)。
- 例:房子的面积是数值特征。
- 类别特征 :离散型变量(如颜色、城市、职业)。
- 例:房子的类型是"公寓"或"别墅"。
- 时间特征 :与时间相关的变量(如日期、时间戳)。
- 例:房子的建造年份或出售日期。
- 文本特征 :从文本数据中提取的特征(如词频、词向量)。
- 例:商品评论中的关键词频率。
B、 根据特征来源
- 原始特征 :直接从原始数据中提取的特征。
- 例:房价数据中的"面积"或"房间数"。
- 衍生特征 :由原始特征加工或变换得到的特征。
- 例:将"建造年份"转换为"房龄"(当前年份 - 建造年份)。
- 交互特征 :由多个特征组合而成。
- 例:房子的面积和房间数相乘得到的"每房间面积"。
C、 根据特征重要性
- 强特征 :与目标变量高度相关的特征。
- 例:房价预测中,房子的面积是强特征。
- 弱特征 :与目标变量相关性较低但可能有间接影响的特征。
- 例:房子的外墙颜色对房价的影响较弱。
(4)特征工程:特征如何提取和优化?
A、 特征提取
- 从结构化数据中提取 :
- 直接使用数据中的列作为特征,例如数据库中的字段。
- 从非结构化数据中提取 :
- 对图像:使用像素值、卷积层提取边缘等信息。
- 对文本:使用词频(TF-IDF)、词向量(Word2Vec)。
- 对时间序列:提取趋势、周期性特征。
B、特征处理
- 特征归一化或标准化 :将特征值缩放到一定范围,消除量纲影响。
- 例:将房价特征的范围从 [100,000, 1,000,000] 转换为 [0, 1]。
- 缺失值处理 :填补、删除或替换缺失值。
- 例:用房价的平均值填补缺失的房价数据。
- 离散化 :将连续变量分组为离散区间。
- 例:将房价分为"低价""中价"和"高价"三档。
- 特征编码 :对类别特征进行数值化处理(如独热编码、标签编码)。
- 例:将"城市"特征编码为 [0, 1, 2]。
C、特征选择
从众多特征中挑选出最相关的特征,以提高模型效率和性能:
- 过滤法:根据统计指标选择特征(如相关系数、方差)。
- 包裹法:利用模型性能评估选择特征。
- 嵌入法:在模型训练中自动选择特征(如正则化)。
D、特征创造
通过对原始特征进行变换或组合,创造新的、更有意义的特征:
- 例:将"面积"和"房间数"相除,得到"每房间平均面积"。
(5)特征的质量对模型的影响
高质量的特征 能显著提升模型的表现,因为它能更清晰地描述数据的内在规律;而低质量的特征可能会导致模型性能下降。
特征对模型的影响示例
- 房价预测中,如果只提供"房子的颜色"作为特征,模型可能无法很好地完成预测任务。
- 如果增加"房子的面积"和"位置"作为特征,模型的预测性能会显著提升。
常用比喻:特征是机器学习的"食材",模型是"厨师"。再好的厨师也需要高质量的食材才能做出美味的菜肴。
(6)如何理解特征
- 特征是数据的描述:它是从数据中提取出的描述性属性,能帮助模型更好地理解和学习数据规律。
- 特征决定模型的性能:高质量的特征能显著提升模型的表现,甚至比选择高级模型更重要。
- 特征是机器学习的核心:无论是传统机器学习还是深度学习,特征始终是算法学习的核心对象。
- 特征工程是关键技能:在实践中,特征工程通常比选择模型更重要,因为它直接决定了输入数据的质量。
2、标签(Label)
(1)标签是什么?
在机器学习中,标签(Label) 是指数据集中与输入特征(Features)对应的目标变量,也就是机器学习模型需要预测或输出的结果。标签是监督学习(Supervised Learning)中不可或缺的一部分,起着指导模型学习的作用。
标签是训练数据中的已知答案或结果,用来告诉机器模型在输入特征(Features)与目标输出之间的关系。例如:
-
在房价预测中:
- 输入特征:房子的面积、房间数、位置等。
- 标签:房子的价格(目标值)。
-
在图片分类中:
- 输入特征:图片的像素值。
- 标签:图片中物体的类别(如猫、狗、车)。
-
在文本分类中:
- 输入特征:文本的词向量或句子表示。
- 标签:文本的分类(如正面评论、负面评论)。
(2)标签可以分为以下两种类型:
类别标签:"猫""狗""车" "正面""负面""中性"
数值标签:房子的价格、股票的价格或涨跌幅度
(3)标签的作用:
标签是机器学习模型的"答案",用来指导模型优化预测能力。
(4)标签与特征的区别:
(5)没有标签时怎么办?
在无标签数据场景下,可能需要使用无监督学习 或半监督学习:
- 无监督学习:不需要标签,模型通过数据本身的结构(如聚类、降维)学习。
- 半监督学习:结合有标签数据和无标签数据共同训练模型。
- 弱监督学习:通过间接、模糊、不完整的标签进行训练。
(6)标签在机器学习中的挑战:
A、标注成本高
- 标签通常需要人工标注,尤其在医学、法律等专业领域,标注成本高且费时。
B、标签噪声
- 数据中的标签可能存在错误或不准确,这会降低模型性能。
- 例:某图片本是猫,但误标为狗。
C、标签不平衡
- 某些类别标签样本数量过少,可能导致模型对这些类别的预测能力较差。
- 例:欺诈检测中,欺诈交易样本通常远少于正常交易样本。
D、 标签缺失
- 部分数据可能没有对应标签,需要利用半监督或弱监督学习方法。
(6)如何理解标签?
- 标签是模型的学习目标:它是模型需要学习和预测的结果。
- 标签指导模型优化:通过真实标签与预测值之间的误差,模型可以调整自身参数,提升预测能力。
- 标签是监督学习的核心:没有标签,就无法进行监督学习。
- 标签的质量决定模型性能:高质量的标签是训练好模型的关键。
要想更好地理解标签,可以结合实际的应用场景,将标签与输入特征联系起来,这样会更清晰地了解它在机器学习任务中的作用。
3、样本(示例)(Sample/Instance)
(1)样本是什么?
在机器学习中,样本(Sample) 是指数据集中每一条记录或实例,通常由一组特征(Features)和目标值(Label,若是监督学习)组成。样本是机器学习算法学习的基础单位,通过这些样本,算法能够捕捉输入与输出之间的关系,从而实现预测或分类等任务。
样本的定义
样本是数据集中的基本单位,每个样本可以表示一个独立的观测或实例。通常由以下两部分构成:
- 输入特征(Features):描述样本的属性或变量,是模型的输入。
- 输出标签(Label)(仅监督学习中):是样本的目标值或结果,是模型学习的输出目标。
示例:
-
房价预测问题:
- 样本:某一套房子的数据。
- 特征:房子的面积、房间数、位置等。
- 标签:房子的实际价格。
-
图像分类问题:
- 样本:一张图片。
- 特征:图片的像素值或其他图像特征。
- 标签:图片中物体的类别(如猫、狗)。
-
无监督学习问题(如聚类):
- 样本:数据集中的每条记录(如客户交易记录)。
- 特征:描述客户的交易金额、频率等,无需标签。
(2)样本与数据集的关系
样本是数据集的组成单位,一个数据集由多个样本构成:
- 数据集:是一个集合,由多个样本组成,通常用来训练、验证或测试模型。
- 数据集可以分为三部分:
- 训练集(Training Set):用于模型训练的样本。
- 验证集(Validation Set):用于调整模型参数的样本。
- 测试集(Test Set):用于评估模型性能的样本。
(3)样本的类型:
A、 根据标签是否存在
- 有标签样本 (Supervised Samples):有明确的目标值(标签),用于监督学习。
- 例:每条样本都有类别信息(如"猫"或"狗")。
- 无标签样本 (Unsupervised Samples):没有目标值,用于无监督学习。
- 例:仅有特征数据(如用户行为数据)。
B、根据样本的结构
- 结构化样本 :特征是结构化的、表格形式的数据。
- 例:房价预测中的样本。
- 非结构化样本 :特征是非结构化的数据(如文本、图像、音频)。
- 例:文本分类中的一段文字、图像分类中的一张图片。
C、 根据特征的维度
- 低维样本 :特征维度较少,易于可视化和分析。
- 例:房价预测中仅包含面积和房间数。
- 高维样本 :特征维度较多,如上百甚至上千个维度。
- 例:图像分类中,每个像素值都是一个特征。
(4)样本的重要性:
A、样本是机器学习的核心
- 样本是模型学习和预测的基础单位,模型通过对大量样本的分析学习特征与目标之间的映射关系。
B、样本数量影响模型性能
- 样本量不足:模型可能欠拟合(Underfitting),无法学到足够的信息。
- 样本量过多:可能需要更复杂的模型或更多计算资源,但样本数量通常与模型的性能成正比。
C、样本质量影响模型效果
- 噪声样本(带有错误特征或标签)会降低模型的性能。
- 样本分布的多样性(均衡性)决定了模型的泛化能力。
(5)样本的分布:
A、 均匀分布样本
- 样本的分布比较均匀,模型更容易学习到普适规律。
B、 非均匀分布样本
- 样本中某些类别或特征占比过高,容易导致模型偏向主流分布。
- 例:在欺诈检测中,正常交易样本远多于欺诈交易样本。
C、独立同分布样本
- 假设样本是独立同分布(i.i.d.),即每个样本相互独立且来自相同的分布,这通常是许多机器学习算法的前提。
(6)样本的挑战:
A、样本不足
- 数据量太少会导致模型欠拟合,尤其在深度学习中,大量样本是必须的。
B、 样本不平衡
- 某些类别的样本数量过少,可能导致模型无法正确识别这些类别。
- 解决方法:
- 数据增强(Data Augmentation)。
- 欠采样或过采样(如SMOTE方法)。
- 解决方法:
C、样本噪声
- 样本中的特征或标签可能有错误(如误标、数据缺失),导致模型性能下降。
- 解决方法:
- 数据清洗。
- 增加模型对噪声的鲁棒性。
- 解决方法:
D、 高维样本
- 样本的特征过多会导致"维度灾难",使模型难以处理。
- 解决方法:
- 降维(如PCA)。
- 特征选择。
- 解决方法:
(7)样本在模型中的流程:
-
数据采集:
- 获取样本数据(如从传感器、数据库、网络爬取中获取)。
-
数据预处理:
- 清洗样本(处理缺失值、去除噪声)。
- 特征工程(提取、编码、归一化等)。
-
模型训练:
- 使用训练集样本训练模型,优化模型参数。
-
模型评估:
- 在验证集或测试集样本上评估模型性能。
(8)如何理解样本?
- 样本是数据的基本单位,描述了一个观测或实例。
- 样本由特征和标签组成,特征是描述信息,标签是目标值(监督学习中)。
- 样本决定模型性能:数量、质量、分布都会直接影响模型效果。
- 样本是数据与算法之间的纽带,是机器学习成功的基础。
要理解样本,可以从具体问题出发,比如考虑一条数据在预测房价或图像分类中的意义。通过实践与理论结合,样本的概念会更加清晰。