文章目录
前言
在本片开始将为大家介绍机器学习相关的知识点。
机器学习基本定义
夏天,我们通常会去水果店里买西瓜,我们看到一个根蒂蜷缩、敲起来声音浑浊的青绿色的西瓜,我们提着西瓜就去结账了,为什么在这么多西瓜里我们要挑这个呢?我们为何能断定这个西瓜就是一个好瓜?其实这些都是我们基于以往买瓜的经验,对于西瓜好坏的一个预判。之所以我们能够进行准确的预判,是因为我们积累了大量的经验,通过对经验的利用,就能对新情况做出有效的决策。
上面经验都是基于我们人类而言的,那么计算机也能根据经验进行判断吗?机器学习正是这样一门学科,它致力于通过计算的手段,利用经验来改善系统的性能。
图1 西瓜
假设现在我们获取了一堆西瓜的数据,这个数据的总体叫做数据集。现在我们要利用这些数据来开发一个系统,用来判定任意一个提供给我们的瓜好坏与否。将这些数据分为两部分,一部分是用来学习或者叫训练的我们叫它训练集,可以通过学习训练集中数据的潜在规律来判断西瓜的好坏,这些规律就是我们需要去学习的经验,而"色泽"、"根蒂"、"敲声"这些都是表现西瓜好坏的关键特征,它们也就叫做数据的特征或属性,另一部分数据叫做测试集,在我们完成训练集的学习后,我们怎么判断所学习到的经验是否是正确的呢?我们可以将所学习到的经验通过测试集来检验我们学习到的"经验"的准确性。例如我们学习得到一个函数 y=f(x),现在需要将一个训练集中的数据元素 (x i
,y i)代入函数中,检查 f(x i) 是否与 y i相等。
现在一堆西瓜数据在这里,我门通过学习已经建立起了一个模型,这个模型可以帮助我们去预测未知的西瓜好坏与否,若我们只需要知道这个西瓜是好瓜还是坏瓜,即这个系统输出的就是"好"或者"坏",那我们称这类预测的值是离散值的任务叫做分类;如果需要知道这个西瓜的成熟度 0.95、0.55 这种连续值,这类任务叫做回归;而这种我们有目的、有标记信息的学习叫做监督学习;当然对应着另一种就是无监督学习,聚类就是其中最经典的。我们将西瓜分为若干组,每个组称为一个簇;这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜""深色瓜""本地瓜""外地瓜",这样的学习能帮助我们了解数据内在的规律,能为更深入地分析数据建立基础。需要注意的是,在聚类学习中,"浅色瓜""本地瓜"这样的概念我们事先是不知道的。
大家注意,我们学习的目的就是为了使得机器能够更好地使用于新样本,而不是仅仅在给定的训练样本表现出色就行了,即便是聚类这种无监督学习,我们也希望学习的簇划分,能适用于没有在训练集中出现的样本。我们称学习模型用于预测新样本的这种能力叫做泛化能力。
练习题
1、机器学习数据集可划分为训练集和测试集
A、对
B、错
2、下列属于监督学习的有
A、分类
B、回归
C、聚类
3、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
A、对
B、错
1.A
2.AB
3.A