机器学习-1 - 技术栈

文章目录

前言
- 机器学习基本定义
练习题

前言

在本片开始将为大家介绍机器学习相关的知识点。

机器学习基本定义

夏天，我们通常会去水果店里买西瓜，我们看到一个根蒂蜷缩、敲起来声音浑浊的青绿色的西瓜，我们提着西瓜就去结账了，为什么在这么多西瓜里我们要挑这个呢？我们为何能断定这个西瓜就是一个好瓜？其实这些都是我们基于以往买瓜的经验，对于西瓜好坏的一个预判。之所以我们能够进行准确的预判，是因为我们积累了大量的经验，通过对经验的利用，就能对新情况做出有效的决策。

上面经验都是基于我们人类而言的，那么计算机也能根据经验进行判断吗？机器学习正是这样一门学科，它致力于通过计算的手段，利用经验来改善系统的性能。

图1 西瓜

假设现在我们获取了一堆西瓜的数据，这个数据的总体叫做数据集。现在我们要利用这些数据来开发一个系统，用来判定任意一个提供给我们的瓜好坏与否。将这些数据分为两部分，一部分是用来学习或者叫训练的我们叫它训练集，可以通过学习训练集中数据的潜在规律来判断西瓜的好坏，这些规律就是我们需要去学习的经验，而"色泽"、"根蒂"、"敲声"这些都是表现西瓜好坏的关键特征，它们也就叫做数据的特征或属性，另一部分数据叫做测试集，在我们完成训练集的学习后，我们怎么判断所学习到的经验是否是正确的呢？我们可以将所学习到的经验通过测试集来检验我们学习到的"经验"的准确性。例如我们学习得到一个函数 y=f(x)，现在需要将一个训练集中的数据元素 (x i

,y i）代入函数中，检查 f(x i) 是否与 y i相等。

现在一堆西瓜数据在这里，我门通过学习已经建立起了一个模型，这个模型可以帮助我们去预测未知的西瓜好坏与否，若我们只需要知道这个西瓜是好瓜还是坏瓜，即这个系统输出的就是"好"或者"坏"，那我们称这类预测的值是离散值的任务叫做分类；如果需要知道这个西瓜的成熟度 0.95、0.55 这种连续值，这类任务叫做回归；而这种我们有目的、有标记信息的学习叫做监督学习；当然对应着另一种就是无监督学习，聚类就是其中最经典的。我们将西瓜分为若干组，每个组称为一个簇；这些自动形成的簇可能对应一些潜在的概念划分，例如"浅色瓜""深色瓜""本地瓜""外地瓜"，这样的学习能帮助我们了解数据内在的规律，能为更深入地分析数据建立基础。需要注意的是，在聚类学习中，"浅色瓜""本地瓜"这样的概念我们事先是不知道的。

大家注意，我们学习的目的就是为了使得机器能够更好地使用于新样本，而不是仅仅在给定的训练样本表现出色就行了，即便是聚类这种无监督学习，我们也希望学习的簇划分，能适用于没有在训练集中出现的样本。我们称学习模型用于预测新样本的这种能力叫做泛化能力。

练习题

1、机器学习数据集可划分为训练集和测试集

A、对

B、错

2、下列属于监督学习的有

A、分类

B、回归

C、聚类

3、机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

A、对

B、错

1.A

2.AB

3.A