机器学习-周志华

第一章 绪论

机器学习 : 致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,"经验" 通常以"数据"形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生**"模型"** 的算法,即**"学习算法"**。有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。可以说机器学习时研究关于"学习算法"的学问。

1.1 基本术语:

数据集 (data set):记录的集合。其中每条记录是关于一个事件或对象的描述,称为"示例","样本"
属性\特征 (attribute\feature):反映事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。其张成的空间称为"属性空间(attribute space)"\"样本空间(sample space)"\"输入空间(sample space)"。

学习\训练 (learning\training):从数据中学得模型的过程。是假设不断逼近真实的过程。
训练数据 (training data):训练过程所使用的数据。
训练样本 (training sample):训练所使用的样本。
训练集 (training set):训练样本的集合。
假设 (hypothesis):学得模型对应了关于数据的某种潜在规律。
真相\真实(ground truth):潜在规律自身。

标记 (label):训练样本的"结果"信息,是判断,预测。
样例(example):带有标记的样本。

分类 (classification):预测的是离散值的学习任务。
二分类 (binary classification):只涉及两个类别。
多分类 (multi-class classification):涉及多个类别。
回归 (regression):预测的是连续值的学习任务
聚类 (clustering):将训练集中的样本分为若干组。
监督学习 (supervised learning):分类+回归
无监督学习 (unsupervised learning):聚类
测试(testing):对学得模型,对其进行预测的过程。

泛化能力:学得模型适用在新样本上的能力。

1.2 假设空间

归纳 :从特殊到一般的"泛化"过程,从具体的事实归结出一般性规律。
演绎 :从一般到特殊的"特化"过程,从基础原理推演出具体状况。
机器学习 ,是从样例中学习的过程。是归纳的过程。

->机器学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,
版本空间 :存在与训练集一致的假设集合。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。

引导算法确立偏好的一般性原则:

奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选最简单的那个

学习算法的期望性能相同:

没有免费的午餐定理(NFL:No free Lunch Theorem):脱离具体问题,空谈哪个算法更好,无意义

相关推荐
猫猫村晨总6 天前
网络安全学习笔记之Internet基本知识
web安全·网络安全·学习笔记
秀儿还能再秀7 天前
时间序列分析(四)——差分运算、延迟算子、AR(p)模型
学习笔记·时序分析
猫猫村晨总19 天前
爬虫学习笔记之Robots协议相关整理
爬虫·python·学习笔记
Jackilina_Stone24 天前
【huawei】云计算的备份和容灾
安全·云计算·学习笔记·huawei·灾备
凌云行者24 天前
Linux-Robust-Futex学习笔记
linux·学习笔记·robust futex
生活最重要(ง •̀_•́)ง1 个月前
[STM32 标准库]定时器输出PWM配置流程 PWM模式解析
学习笔记·tim·定时器·stm32标准库·pwm输出
SomeBottle1 个月前
【小记】在 Google Colab 等平台上运行 GPU 容器
linux·python·docker·学习笔记·容器化·斩虫
秀儿还能再秀1 个月前
Python数据可视化(够用版):懂基础 + 专业的图表抛给Tableau等专业绘图工具
python·学习笔记·数据可视化
秀儿还能再秀1 个月前
数据分析思维(十一):应用篇——用数据分析解决问题
数据挖掘·数据分析·学习笔记·分析思维·数据分析方法
秀儿还能再秀1 个月前
数据分析思维(十):分析方法——漏斗分析方法
数据分析·学习笔记·分析方法·数据思维