机器学习期末复习

一、基本概念

分类、回归的概念区别
- 分类：输出是离散的类别标签（如 "猫 / 狗""患病 / 健康"）；
- 回归：输出是连续的数值（如 "房价""温度"）。
训练集、验证集、测试集
- 训练集：用于训练模型、更新参数；
- 验证集：用于调整超参数、选择模型（如选择学习率、模型结构）；
- 测试集：用于最终评估模型泛化能力（不参与任何训练过程）。
监督学习、非监督学习
- 监督学习：数据带标签（如 "图片 + 类别"），目标是学习 "输入→标签" 的映射（如分类、回归）；
- 非监督学习：数据无标签，目标是挖掘数据内在规律（如聚类、降维）。
回归问题、分类问题
- 回归问题：目标是预测连续值（如预测销售额）；
- 分类问题：目标是预测离散类别（如判断邮件是否为垃圾邮件）。
欠拟合、过拟合
- 欠拟合：模型太简单，既没学好训练集，也没泛化能力（训练误差、测试误差都大）；
- 过拟合：模型太复杂，学好了训练集但记了 "噪声"，测试误差远大于训练误差。
泛化模型对未见过的新数据的预测能力，是机器学习的核心目标。
概率与频率的关系
- 频率：多次重复实验中事件发生的比例（是统计结果）；
- 概率：事件发生的固有可能性（是理论值）；
- 关系：当实验次数足够多时，频率趋近于概率（大数定律）。
独立同分布
- 独立：样本之间互不影响；
- 同分布：所有样本都来自同一个概率分布；
- 机器学习中通常假设训练 / 测试数据是独立同分布的。
先验概率，后验概率
- 先验概率：未观察到数据时，某事件发生的概率（如 "患病的概率"）；
- 后验概率：观察到数据后，某事件发生的概率（如 "检测阳性后患病的概率"）。
朴素贝叶斯 基于贝叶斯定理的分类算法，核心假设是 "特征之间条件独立"，计算后验概率实现分类。
熵衡量随机变量不确定性的指标：熵越大，不确定性越高。
- 离散分布熵公式：H(X)=−∑iP(X=i)logP(X=i)。
连续分布的最大熵 在满足已知约束（如已知均值、方差）的前提下，熵最大的连续分布是正态分布（最大熵原理：不确定时选择最 "均匀" 的分布）。
回归分析法，回归方程
- 回归分析：通过数据拟合变量间的函数关系的统计方法；
- 回归方程：拟合得到的函数表达式（如一元线性回归方程：y^=wx+b）。
类别不平衡问题 分类任务中某类样本数量远多于 / 少于其他类（如 "正例 10 个，负例 1000 个"），会导致模型偏向多数类。
信息增益的缺陷 信息增益更偏好取值多的特征（如 "身份证号" 这类特征取值多，信息增益大，但无实际区分意义），因此决策树中常用 "信息增益率" 修正。

二、基本问题

机器学习的基本过程、三要素
最大似然估计
最小二乘法
过拟合的解决办法
决策树的基本结构
线性模型的衍生和广义线性模型
LDA (线性判别分析) 的思想
多分类学习的思路
拆解法的类型
类别不平衡问题的解决思路
决策模型的基本流程
信息增益的形式
剪枝处理的基本策略
支持向量机的基本原理
集成学习主要解决的问题
神经网络的激活函数
BP 神经网络的学习过程

三、基本算法

一元线性回归的基本形式和参数求解
多元线性回归的基本形式和参数求解
求解极大似然函数估计的一般步骤
描述决策树的算法流程
支持向量机的目标函数推导步骤
两层神经网络怎么解决异或问题
反向传播算法
Bagging 算法过程