机器学习期末复习

一、基本概念

  1. 分类、回归的概念区别

    • 分类:输出是离散的类别标签(如 "猫 / 狗""患病 / 健康");
    • 回归:输出是连续的数值(如 "房价""温度")。
  2. 训练集、验证集、测试集

    • 训练集:用于训练模型、更新参数
    • 验证集:用于调整超参数、选择模型(如选择学习率、模型结构);
    • 测试集:用于最终评估模型泛化能力(不参与任何训练过程)。
  3. 监督学习、非监督学习

    • 监督学习:数据带标签(如 "图片 + 类别"),目标是学习 "输入→标签" 的映射(如分类、回归);
    • 非监督学习:数据无标签,目标是挖掘数据内在规律(如聚类、降维)。
  4. 回归问题、分类问题

    • 回归问题:目标是预测连续值(如预测销售额);
    • 分类问题:目标是预测离散类别(如判断邮件是否为垃圾邮件)。
  5. 欠拟合、过拟合

    • 欠拟合:模型太简单,既没学好训练集,也没泛化能力(训练误差、测试误差都大);
    • 过拟合:模型太复杂,学好了训练集但记了 "噪声",测试误差远大于训练误差。
  6. 泛化 模型对未见过的新数据的预测能力,是机器学习的核心目标。

  7. 概率与频率的关系

    • 频率:多次重复实验中事件发生的比例(是统计结果);
    • 概率:事件发生的固有可能性(是理论值);
    • 关系:当实验次数足够多时,频率趋近于概率(大数定律)。
  8. 独立同分布

    • 独立:样本之间互不影响
    • 同分布:所有样本都来自同一个概率分布
    • 机器学习中通常假设训练 / 测试数据是独立同分布的。
  9. 先验概率,后验概率

    • 先验概率:未观察到数据时,某事件发生的概率(如 "患病的概率");
    • 后验概率:观察到数据后,某事件发生的概率(如 "检测阳性后患病的概率")。
  10. 朴素贝叶斯 基于贝叶斯定理的分类算法,核心假设是 "特征之间条件独立",计算后验概率实现分类。

  11. 衡量随机变量不确定性的指标:熵越大,不确定性越高。

    • 离散分布熵公式:H(X)=−∑iP(X=i)logP(X=i)。
  12. 连续分布的最大熵 在满足已知约束(如已知均值、方差)的前提下,熵最大的连续分布是正态分布(最大熵原理:不确定时选择最 "均匀" 的分布)。

  13. 回归分析法,回归方程

    • 回归分析:通过数据拟合变量间的函数关系的统计方法;
    • 回归方程:拟合得到的函数表达式(如一元线性回归方程:y^=wx+b)。
  14. 类别不平衡问题 分类任务中某类样本数量远多于 / 少于其他类(如 "正例 10 个,负例 1000 个"),会导致模型偏向多数类。

  15. 信息增益的缺陷 信息增益更偏好取值多的特征(如 "身份证号" 这类特征取值多,信息增益大,但无实际区分意义),因此决策树中常用 "信息增益率" 修正。

二、基本问题

  1. 机器学习的基本过程、三要素
  2. 最大似然估计
  3. 最小二乘法
  4. 过拟合的解决办法
  5. 决策树的基本结构
  6. 线性模型的衍生和广义线性模型
  7. LDA (线性判别分析) 的思想
  8. 多分类学习的思路
  9. 拆解法的类型
  10. 类别不平衡问题的解决思路
  11. 决策模型的基本流程
  12. 信息增益的形式
  13. 剪枝处理的基本策略
  14. 支持向量机的基本原理
  15. 集成学习主要解决的问题
  16. 神经网络的激活函数
  17. BP 神经网络的学习过程

三、基本算法

  1. 一元线性回归的基本形式和参数求解
  2. 多元线性回归的基本形式和参数求解
  3. 求解极大似然函数估计的一般步骤
  4. 描述决策树的算法流程
  5. 支持向量机的目标函数推导步骤
  6. 两层神经网络怎么解决异或问题
  7. 反向传播算法
  8. Bagging 算法过程
相关推荐
子午21 小时前
【2026计算机毕设~AI项目】鸟类识别系统~Python+深度学习+人工智能+图像识别+算法模型
图像处理·人工智能·python·深度学习
矢志航天的阿洪1 天前
IGRF-13 数学细节与公式说明
线性代数·机器学习·矩阵
传说故事1 天前
【论文自动阅读】Goal Force: 教视频模型实现Physics-Conditioned Goals
人工智能·深度学习·视频生成
FPGA小c鸡1 天前
【FPGA深度学习加速】RNN与LSTM硬件加速完全指南:从算法原理到硬件实现
rnn·深度学习·fpga开发
小鸡吃米…1 天前
机器学习 —— 数据缩放
人工智能·python·机器学习
JHC0000001 天前
智能体造论子--简单封装大模型输出审核器
开发语言·python·机器学习
Aaron15881 天前
通信灵敏度计算与雷达灵敏度计算对比分析
网络·人工智能·深度学习·算法·fpga开发·信息与通信·信号处理
龙腾AI白云1 天前
AI算法实战:逻辑回归在风控场景中的应用
深度学习·机器学习·知识图谱
2501_948120151 天前
基于神经网络的音乐情感分析器
人工智能·深度学习·神经网络
九河云1 天前
数字韧性时代,华为云CBR为业务连续性注入“免疫基因”
大数据·人工智能·安全·机器学习·华为云