一、基本概念
-
分类、回归的概念区别
- 分类:输出是离散的类别标签(如 "猫 / 狗""患病 / 健康");
- 回归:输出是连续的数值(如 "房价""温度")。
-
训练集、验证集、测试集
- 训练集:用于训练模型、更新参数;
- 验证集:用于调整超参数、选择模型(如选择学习率、模型结构);
- 测试集:用于最终评估模型泛化能力(不参与任何训练过程)。
-
监督学习、非监督学习
- 监督学习:数据带标签(如 "图片 + 类别"),目标是学习 "输入→标签" 的映射(如分类、回归);
- 非监督学习:数据无标签,目标是挖掘数据内在规律(如聚类、降维)。
-
回归问题、分类问题
- 回归问题:目标是预测连续值(如预测销售额);
- 分类问题:目标是预测离散类别(如判断邮件是否为垃圾邮件)。
-
欠拟合、过拟合
- 欠拟合:模型太简单,既没学好训练集,也没泛化能力(训练误差、测试误差都大);
- 过拟合:模型太复杂,学好了训练集但记了 "噪声",测试误差远大于训练误差。
-
泛化 模型对未见过的新数据的预测能力,是机器学习的核心目标。
-
概率与频率的关系
- 频率:多次重复实验中事件发生的比例(是统计结果);
- 概率:事件发生的固有可能性(是理论值);
- 关系:当实验次数足够多时,频率趋近于概率(大数定律)。
-
独立同分布
- 独立:样本之间互不影响;
- 同分布:所有样本都来自同一个概率分布;
- 机器学习中通常假设训练 / 测试数据是独立同分布的。
-
先验概率,后验概率
- 先验概率:未观察到数据时,某事件发生的概率(如 "患病的概率");
- 后验概率:观察到数据后,某事件发生的概率(如 "检测阳性后患病的概率")。
-
朴素贝叶斯 基于贝叶斯定理的分类算法,核心假设是 "特征之间条件独立",计算后验概率实现分类。
-
熵 衡量随机变量不确定性的指标:熵越大,不确定性越高。
- 离散分布熵公式:H(X)=−∑iP(X=i)logP(X=i)。
-
连续分布的最大熵 在满足已知约束(如已知均值、方差)的前提下,熵最大的连续分布是正态分布(最大熵原理:不确定时选择最 "均匀" 的分布)。
-
回归分析法,回归方程
- 回归分析:通过数据拟合变量间的函数关系的统计方法;
- 回归方程:拟合得到的函数表达式(如一元线性回归方程:y^=wx+b)。
-
类别不平衡问题 分类任务中某类样本数量远多于 / 少于其他类(如 "正例 10 个,负例 1000 个"),会导致模型偏向多数类。
-
信息增益的缺陷 信息增益更偏好取值多的特征(如 "身份证号" 这类特征取值多,信息增益大,但无实际区分意义),因此决策树中常用 "信息增益率" 修正。
二、基本问题
- 机器学习的基本过程、三要素
- 最大似然估计
- 最小二乘法
- 过拟合的解决办法
- 决策树的基本结构
- 线性模型的衍生和广义线性模型
- LDA (线性判别分析) 的思想
- 多分类学习的思路
- 拆解法的类型
- 类别不平衡问题的解决思路
- 决策模型的基本流程
- 信息增益的形式
- 剪枝处理的基本策略
- 支持向量机的基本原理
- 集成学习主要解决的问题
- 神经网络的激活函数
- BP 神经网络的学习过程
三、基本算法
- 一元线性回归的基本形式和参数求解
- 多元线性回归的基本形式和参数求解
- 求解极大似然函数估计的一般步骤
- 描述决策树的算法流程
- 支持向量机的目标函数推导步骤
- 两层神经网络怎么解决异或问题
- 反向传播算法
- Bagging 算法过程