机器学习(1)

1. 机器学习的定义

机器学习是指系统通过分析大量经验数据,从数据中归纳规律,以提升特定任务(如预测、分类)完成效果的过程。其核心逻辑为:基于经验数据→归纳规律→优化任务表现,典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石。

主要类型

  • 监督学习:使用带有标签(即已知结果)的数据进行训练,比如用标注了 "垃圾邮件" 或 "正常邮件" 的样本训练模型,使其能判断新邮件的类别。常见算法有线性回归、逻辑回归、决策树、支持向量机等。
  • 无监督学习:训练数据没有标签,机器需要自行发现数据中的隐藏结构,比如将客户按照消费习惯分成不同群体。聚类算法(如 K-means)、降维算法(如主成分分析)是典型代表。
  • 半监督学习:结合少量有标签数据和大量无标签数据进行学习,适用于标签获取成本高的场景,比如医疗影像分析。
  • 强化学习:通过与环境的交互,机器在尝试不同行为的过程中,根据获得的 "奖励" 或 "惩罚" 来调整策略,最终学会最优行为。比如 AlphaGo 下棋、机器人自主导航等。

基本流程

  1. 数据收集与预处理:获取相关数据,并进行清洗(去除噪声、缺失值)、转换(标准化、归一化)等操作,为后续学习做准备。
  2. 选择模型:根据问题类型(分类、回归、聚类等)和数据特点,挑选合适的算法模型。
  3. 训练模型:用处理好的数据对模型进行训练,通过调整模型参数,使模型能更好地拟合数据规律。
  4. 评估与优化:用测试数据检验模型性能,若效果不佳(如准确率低、过拟合),则调整模型参数、更换算法或优化数据,重复训练过程。
  5. 应用模型:将训练好的模型用于实际场景,对新数据进行预测或决策。
2. 基本术语
术语 定义 示例(文档表格简化)
数据集 数据记录的集合 含 17 条西瓜数据的集合(编号 1-17)
样本 数据集中的单条记录 编号 1 的记录:色泽 "青绿"、根蒂 "蜷缩" 等
特征(属性) 描述对象性质的事项 西瓜的 "色泽""根蒂""敲声" 等
属性空间 特征张成的空间 由 "色泽""根蒂""敲声" 等特征构成的多维空间
训练集 含标记信息的训练数据 含 "好瓜" 标签的 14 条西瓜数据(编号 1-14)
测试集 用于测试模型的未知标记数据 3 条未标记 "好瓜" 结果的数据(编号 15-17)
3. 学习类型
  • 监督学习 :使用含 "正确答案"(标记)的数据训练,输出分为两类:
    • 分类:输出离散值(如判断西瓜是否为 "好瓜");
    • 回归:输出连续值(如根据房屋面积、区域预测价格)。
  • 无监督学习 :仅使用无标记数据,自主发现数据结构,典型为聚类(如将样本分为 4 类),应用案例如 "向购买尿布的人推荐葡萄酒" 的关联分析。
  • 集成学习:通过构建并结合多个学习器提升任务效果。
4. 模型评估与选择
  • 核心指标

    • 错误率:分类错误样本占比;精度 = 1 - 错误率;
    • 残差:预测输出与真实输出的差异;
    • 损失函数:衡量预测偏差,值越小模型越好(如通过直线拟合房屋价格与大小的关系)。
  • 拟合问题及处理

    类型 定义 处理方式
    过拟合 过度学习训练数据噪声,泛化能力差 增加数据、降维、正则化、集成学习
    欠拟合 未充分学习数据特征,拟合不足 增加特征、提高模型复杂度、减小正则化系数
  • 评估原则

    • 奥卡姆剃刀:选择能解释数据的最简单模型;
    • 没有免费的午餐(NFL):不存在对所有问题都最优的算法,需结合具体任务。
  • 评估方法

    • 留出法:按 7:3 划分训练集与测试集,需保持数据分布一致(如分层采样);
    • 交叉验证法:将数据分为 k 个互斥子集,用 k-1 个训练、1 个测试,取 k 次结果均值(如 10 折交叉验证)。
  • 评估指标

    • 分类结果:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例);
    • 查准率(P=TP/(TP+FP)):预测为正例的样本中实际为正例的比例;
    • 查全率(R=TP/(TP+FN)):实际为正例的样本中被正确预测的比例;
    • P-R 图:直观对比模型性能,曲线被完全包住的模型更优。
5. 应用领域

涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等。


关键问题

  1. 问题 :机器学习的核心目标是什么?其基本流程可概括为哪几步?
    答案:核心目标是让系统从大量经验数据中归纳规律,提升特定任务的完成效果。基本流程为:收集经验数据→归纳规律→用规律预测新问题→通过反馈优化规律。

  2. 问题 :监督学习与无监督学习的核心区别是什么?分别适用于哪些场景?
    答案:核心区别在于是否使用带标记("正确答案")的数据。监督学习用带标记数据训练,适用于分类(如判断 "好瓜")、回归(如预测房价);无监督学习用无标记数据,适用于发现数据隐藏结构(如聚类分群、购物篮关联分析)。

  3. 问题 :什么是过拟合?导致过拟合的主要原因及处理方式是什么?
    答案:过拟合是模型过度学习训练数据中的噪声,导致对新数据泛化能力差的现象。主要原因是训练数据噪声多或模型过于复杂。处理方式包括:增加训练数据、降维(丢弃无关特征)、正则化(减小参数规模)、采用集成学习(结合多个模型降低风险)。

相关推荐
JJTX0013 分钟前
入门基础人工智能理论
人工智能·搜索引擎
神经星星36 分钟前
3秒检测准确率超90%,Ainnova Tech研发视网膜病变早筛平台,临床试验方案获FDA指导
数据库·人工智能·llm
东方佑1 小时前
UniVoc:基于二维矩阵映射的多语言词汇表系统
人工智能·算法·矩阵
小关会打代码1 小时前
计算机视觉第一课opencv(二)保姆级教
人工智能·opencv·计算机视觉
dundunmm1 小时前
【每天一个知识点】生物的数字孪生
人工智能·数字孪生·生物信息·单细胞
Yn3121 小时前
如何安装 scikit-learn Python 库
python·机器学习·scikit-learn
码码哈哈爱分享2 小时前
Cursor替代品:亚马逊出品,Kiro免费使用Claude Sonnet4.0一款更注重流程感的 AI IDE
人工智能·ai编程
roman_日积跬步-终至千里2 小时前
【深度学习】深度学习的四个核心步骤:从房价预测看机器学习本质
人工智能·深度学习·机器学习
Gyoku Mint2 小时前
入门概述(面试常问)
深度学习·学习·机器学习