周志华《机器学习---西瓜书》 一

周志华《机器学习---西瓜书》一

第一部分

一、机器学习的理论基础

PAC理论:一个模型f(x)f(x)f(x)得到的结果与正确的结果的差值小于规定误差的概率大于某一阈值。

二、基础术语

  • 监督学习(supervised learning) :利用带有类别标记(label)的训练数据,通过学习算法训练出模型,用于对新数据样本的类别标记进行预测,典型任务有分类、回归等。
  • 无监督学习(unsupervised learning) :在没有类别标记的训练数据上,通过学习算法发现数据中的潜在结构或规律,比如聚类等任务。
  • 训练数据:用于训练模型的数据集,包含示例的属性和对应的类别标记(如示例中判断西瓜是否为好瓜的数据集。数据集包含为西瓜的图片以及已经标记好坏的结果)
  • 类别标记(label) :训练数据中对样本所属类别的标注,如 "好瓜" 的 "是" 或 "否"。
  • 学习算法(learning algorithm) :用于从训练数据中学习得到模型的算法。
  • 假设(hypothesis) :学习器所学到的模型,是对数据规律的一种假设。只有基于一定的假设才能构建模型
  • 真相(ground-truth) :数据真实的规律或类别标记,是学习器试图逼近的目标。
  • 学习器(learner) :通过学习算法从训练数据中学习得到的模型,用于对新数据进行预测等操作。
  • 数据集:由多个样本组成的集合,可分为训练集和测试集,训练集用于训练模型,测试集用于评估模型性能。
  • 训练:利用训练数据让学习算法学习得到模型的过程。
  • 测试:用测试集评估训练好的模型性能的过程。
  • 示例(instance)、样例(example) :数据集中的单个数据对象,如数据集中的一个西瓜记录。
  • 样本(sample) :与示例、样例含义相近,指数据集中的单个数据项。
  • 属性(attribute)、特征(feature) :描述样本的某个特性,如西瓜的 "色泽""根蒂""敲声"。
  • 属性值:属性的具体取值,如 "色泽" 的 "青绿""乌黑" 等。
  • 属性空间、样本空间、输入空间:由所有属性张成的空间,样本在这个空间中是一个点。
  • 特征向量(feature vector) :将样本的属性值作为向量的分量,形成的向量,用于数学上的表示和计算。
  • 标记空间、输出空间:类别标记的取值范围,如 "好瓜" 的 "是" 和 "否" 构成的空间。
  • 模型:通过学习算法从训练数据中得到的,用于预测或分析的函数或结构,如决策树、神经网络、支持向量机等。
  • 新数据样本:没有类别标记,需要模型进行预测的样本,如示例中的(浅白,蜷缩,浊响,?)。
  • 分类:预测样本属于哪个离散类别,如判断西瓜是好瓜还是坏瓜。
  • 回归:预测样本的连续数值,如预测房价。
  • 二分类:类别只有两个,如正类和反类。
  • 多分类:类别有多个。
  • 正类、反类:在二分类中对两个类别的称呼,通常将关注的类别称为正类,其他为反类。
  • 未见样本(unseen instance) :模型在训练过程中没有见过的新样本。
  • 未知 "分布" :未见样本的概率分布是未知的,模型需要具备泛化能力来处理。
  • 独立同分布(i.i.d.) :假设样本是从同一个概率分布中独立抽取的。

三、典型的机器学习过程

四、现实中的机器学习应用

最优方案往往来自:按需设计、量身定制

五、归纳偏好

任何一个有效的机器学习算法必有其偏好

学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!

一般原则 :奥卡姆剃刀(Occam's razor)核心思想是: "如无必要,勿增实体"

在机器学习语境中,这一原则通常理解为:在多个性能相近的模型中,应选择更简单的那个。这里的 "简单" 可指模型参数更少、结构更简洁(如更浅的决策树、更低阶的多项式拟合等)。其背后的逻辑是:简单模型更不易过拟合训练数据中的噪声,更可能捕捉数据的本质规律,从而在未见样本上具有更好的泛化能力。例如,当用曲线拟合数据时,若一次函数(直线)与高次多项式的拟合效果相近,优先选择直线,因为它更简单,更可能反映数据的真实趋势。

相关推荐
今天没ID40 分钟前
Python 编程实战:从基础语法到算法实现 (1)
python
H***99761 小时前
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
人工智能·深度学习·机器学习
二川bro1 小时前
Python在AI领域应用全景:2025趋势与案例
开发语言·人工智能·python
AI-智能1 小时前
RAG 系统架构设计模式介绍
人工智能·langchain·llm·agent·知识库·rag·大模型应用
长桥夜波1 小时前
机器学习日报20
人工智能·机器学习
棒棒的皮皮1 小时前
【Python】Open3d用于3D测高项目
python·3d·open3d
字节跳动视频云技术团队1 小时前
火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral
人工智能
CodeLongBear2 小时前
Python数据分析: 数据可视化入门:Matplotlib基础操作与多坐标系实战
python·信息可视化·数据分析
谢景行^顾2 小时前
初识机器学习
人工智能