机器学习-1

文章目录


前言

在本片开始将为大家介绍机器学习相关的知识点。


机器学习基本定义

夏天,我们通常会去水果店里买西瓜,我们看到一个根蒂蜷缩、敲起来声音浑浊的青绿色的西瓜,我们提着西瓜就去结账了,为什么在这么多西瓜里我们要挑这个呢?我们为何能断定这个西瓜就是一个好瓜?其实这些都是我们基于以往买瓜的经验,对于西瓜好坏的一个预判。之所以我们能够进行准确的预判,是因为我们积累了大量的经验,通过对经验的利用,就能对新情况做出有效的决策。

上面经验都是基于我们人类而言的,那么计算机也能根据经验进行判断吗?机器学习正是这样一门学科,它致力于通过计算的手段,利用经验来改善系统的性能。

图1 西瓜

假设现在我们获取了一堆西瓜的数据,这个数据的总体叫做数据集。现在我们要利用这些数据来开发一个系统,用来判定任意一个提供给我们的瓜好坏与否。将这些数据分为两部分,一部分是用来学习或者叫训练的我们叫它训练集,可以通过学习训练集中数据的潜在规律来判断西瓜的好坏,这些规律就是我们需要去学习的经验,而"色泽"、"根蒂"、"敲声"这些都是表现西瓜好坏的关键特征,它们也就叫做数据的特征或属性,另一部分数据叫做测试集,在我们完成训练集的学习后,我们怎么判断所学习到的经验是否是正确的呢?我们可以将所学习到的经验通过测试集来检验我们学习到的"经验"的准确性。例如我们学习得到一个函数 y=f(x),现在需要将一个训练集中的数据元素 (x i

​,y i)代入函数中,检查 f(x i) 是否与 y i相等。

现在一堆西瓜数据在这里,我门通过学习已经建立起了一个模型,这个模型可以帮助我们去预测未知的西瓜好坏与否,若我们只需要知道这个西瓜是好瓜还是坏瓜,即这个系统输出的就是"好"或者"坏",那我们称这类预测的值是离散值的任务叫做分类;如果需要知道这个西瓜的成熟度 0.95、0.55 这种连续值,这类任务叫做回归;而这种我们有目的、有标记信息的学习叫做监督学习;当然对应着另一种就是无监督学习,聚类就是其中最经典的。我们将西瓜分为若干组,每个组称为一个簇;这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜""深色瓜""本地瓜""外地瓜",这样的学习能帮助我们了解数据内在的规律,能为更深入地分析数据建立基础。需要注意的是,在聚类学习中,"浅色瓜""本地瓜"这样的概念我们事先是不知道的。

大家注意,我们学习的目的就是为了使得机器能够更好地使用于新样本,而不是仅仅在给定的训练样本表现出色就行了,即便是聚类这种无监督学习,我们也希望学习的簇划分,能适用于没有在训练集中出现的样本。我们称学习模型用于预测新样本的这种能力叫做泛化能力。


练习题

1、机器学习数据集可划分为训练集和测试集

A、对

B、错

2、下列属于监督学习的有

A、分类

B、回归

C、聚类

3、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

A、对

B、错

1.A

2.AB

3.A

相关推荐
张较瘦_4 分钟前
[论文阅读] 人工智能+软件工程 | 结对编程中的知识转移新图景
人工智能·软件工程·结对编程
小Q小Q1 小时前
cmake编译LASzip和LAStools
人工智能·计算机视觉
yzx9910131 小时前
基于 Q-Learning 算法和 CNN 的强化学习实现方案
人工智能·算法·cnn
token-go1 小时前
[特殊字符] 革命性AI提示词优化平台正式开源!
人工智能·开源
cooldream20092 小时前
华为云Flexus+DeepSeek征文|基于华为云Flexus X和DeepSeek-R1打造个人知识库问答系统
人工智能·华为云·dify
Blossom.1185 小时前
使用Python和Scikit-Learn实现机器学习模型调优
开发语言·人工智能·python·深度学习·目标检测·机器学习·scikit-learn
DFminer6 小时前
【LLM】fast-api 流式生成测试
人工智能·机器人
郄堃Deep Traffic7 小时前
机器学习+城市规划第十四期:利用半参数地理加权回归来实现区域带宽不同的规划任务
人工智能·机器学习·回归·城市规划
GIS小天7 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月7日第101弹
人工智能·算法·机器学习·彩票
阿部多瑞 ABU8 小时前
主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析
人工智能·安全·ai·语言模型·安全性测试