机器学习-1

文章目录


前言

在本片开始将为大家介绍机器学习相关的知识点。


机器学习基本定义

夏天,我们通常会去水果店里买西瓜,我们看到一个根蒂蜷缩、敲起来声音浑浊的青绿色的西瓜,我们提着西瓜就去结账了,为什么在这么多西瓜里我们要挑这个呢?我们为何能断定这个西瓜就是一个好瓜?其实这些都是我们基于以往买瓜的经验,对于西瓜好坏的一个预判。之所以我们能够进行准确的预判,是因为我们积累了大量的经验,通过对经验的利用,就能对新情况做出有效的决策。

上面经验都是基于我们人类而言的,那么计算机也能根据经验进行判断吗?机器学习正是这样一门学科,它致力于通过计算的手段,利用经验来改善系统的性能。

图1 西瓜

假设现在我们获取了一堆西瓜的数据,这个数据的总体叫做数据集。现在我们要利用这些数据来开发一个系统,用来判定任意一个提供给我们的瓜好坏与否。将这些数据分为两部分,一部分是用来学习或者叫训练的我们叫它训练集,可以通过学习训练集中数据的潜在规律来判断西瓜的好坏,这些规律就是我们需要去学习的经验,而"色泽"、"根蒂"、"敲声"这些都是表现西瓜好坏的关键特征,它们也就叫做数据的特征或属性,另一部分数据叫做测试集,在我们完成训练集的学习后,我们怎么判断所学习到的经验是否是正确的呢?我们可以将所学习到的经验通过测试集来检验我们学习到的"经验"的准确性。例如我们学习得到一个函数 y=f(x),现在需要将一个训练集中的数据元素 (x i

​,y i)代入函数中,检查 f(x i) 是否与 y i相等。

现在一堆西瓜数据在这里,我门通过学习已经建立起了一个模型,这个模型可以帮助我们去预测未知的西瓜好坏与否,若我们只需要知道这个西瓜是好瓜还是坏瓜,即这个系统输出的就是"好"或者"坏",那我们称这类预测的值是离散值的任务叫做分类;如果需要知道这个西瓜的成熟度 0.95、0.55 这种连续值,这类任务叫做回归;而这种我们有目的、有标记信息的学习叫做监督学习;当然对应着另一种就是无监督学习,聚类就是其中最经典的。我们将西瓜分为若干组,每个组称为一个簇;这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜""深色瓜""本地瓜""外地瓜",这样的学习能帮助我们了解数据内在的规律,能为更深入地分析数据建立基础。需要注意的是,在聚类学习中,"浅色瓜""本地瓜"这样的概念我们事先是不知道的。

大家注意,我们学习的目的就是为了使得机器能够更好地使用于新样本,而不是仅仅在给定的训练样本表现出色就行了,即便是聚类这种无监督学习,我们也希望学习的簇划分,能适用于没有在训练集中出现的样本。我们称学习模型用于预测新样本的这种能力叫做泛化能力。


练习题

1、机器学习数据集可划分为训练集和测试集

A、对

B、错

2、下列属于监督学习的有

A、分类

B、回归

C、聚类

3、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

A、对

B、错

1.A

2.AB

3.A

相关推荐
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨2 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041082 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌3 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭4 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246664 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫5 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班5 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型