机器学习-1

文章目录


前言

在本片开始将为大家介绍机器学习相关的知识点。


机器学习基本定义

夏天,我们通常会去水果店里买西瓜,我们看到一个根蒂蜷缩、敲起来声音浑浊的青绿色的西瓜,我们提着西瓜就去结账了,为什么在这么多西瓜里我们要挑这个呢?我们为何能断定这个西瓜就是一个好瓜?其实这些都是我们基于以往买瓜的经验,对于西瓜好坏的一个预判。之所以我们能够进行准确的预判,是因为我们积累了大量的经验,通过对经验的利用,就能对新情况做出有效的决策。

上面经验都是基于我们人类而言的,那么计算机也能根据经验进行判断吗?机器学习正是这样一门学科,它致力于通过计算的手段,利用经验来改善系统的性能。

图1 西瓜

假设现在我们获取了一堆西瓜的数据,这个数据的总体叫做数据集。现在我们要利用这些数据来开发一个系统,用来判定任意一个提供给我们的瓜好坏与否。将这些数据分为两部分,一部分是用来学习或者叫训练的我们叫它训练集,可以通过学习训练集中数据的潜在规律来判断西瓜的好坏,这些规律就是我们需要去学习的经验,而"色泽"、"根蒂"、"敲声"这些都是表现西瓜好坏的关键特征,它们也就叫做数据的特征或属性,另一部分数据叫做测试集,在我们完成训练集的学习后,我们怎么判断所学习到的经验是否是正确的呢?我们可以将所学习到的经验通过测试集来检验我们学习到的"经验"的准确性。例如我们学习得到一个函数 y=f(x),现在需要将一个训练集中的数据元素 (x i

​,y i)代入函数中,检查 f(x i) 是否与 y i相等。

现在一堆西瓜数据在这里,我门通过学习已经建立起了一个模型,这个模型可以帮助我们去预测未知的西瓜好坏与否,若我们只需要知道这个西瓜是好瓜还是坏瓜,即这个系统输出的就是"好"或者"坏",那我们称这类预测的值是离散值的任务叫做分类;如果需要知道这个西瓜的成熟度 0.95、0.55 这种连续值,这类任务叫做回归;而这种我们有目的、有标记信息的学习叫做监督学习;当然对应着另一种就是无监督学习,聚类就是其中最经典的。我们将西瓜分为若干组,每个组称为一个簇;这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜""深色瓜""本地瓜""外地瓜",这样的学习能帮助我们了解数据内在的规律,能为更深入地分析数据建立基础。需要注意的是,在聚类学习中,"浅色瓜""本地瓜"这样的概念我们事先是不知道的。

大家注意,我们学习的目的就是为了使得机器能够更好地使用于新样本,而不是仅仅在给定的训练样本表现出色就行了,即便是聚类这种无监督学习,我们也希望学习的簇划分,能适用于没有在训练集中出现的样本。我们称学习模型用于预测新样本的这种能力叫做泛化能力。


练习题

1、机器学习数据集可划分为训练集和测试集

A、对

B、错

2、下列属于监督学习的有

A、分类

B、回归

C、聚类

3、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

A、对

B、错

1.A

2.AB

3.A

相关推荐
HuggingFace1 小时前
Hugging Face 开源机器人 Reachy Mini 开启预定
人工智能
企企通采购云平台2 小时前
「天元宠物」×企企通,加速数智化升级,“链”接萌宠消费新蓝海
大数据·人工智能·宠物
超级小忍2 小时前
Spring AI ETL Pipeline使用指南
人工智能·spring
张较瘦_2 小时前
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法
论文阅读·人工智能
巴伦是只猫3 小时前
【机器学习笔记 Ⅲ】4 特征选择
人工智能·笔记·机器学习
好心的小明3 小时前
【王树森推荐系统】召回11:地理位置召回、作者召回、缓存召回
人工智能·缓存·推荐系统·推荐算法
lishaoan773 小时前
使用tensorflow的线性回归的例子(十二)
人工智能·tensorflow·线性回归·戴明回归
Danceful_YJ3 小时前
4.权重衰减(weight decay)
python·深度学习·机器学习
二DUAN帝4 小时前
UE实现路径回放、自动驾驶功能简记
人工智能·websocket·机器学习·ue5·自动驾驶·ue4·cesiumforue
zskj_zhyl4 小时前
AI健康小屋“15分钟服务圈”:如何重构社区健康生态?
大数据·人工智能·物联网