机器学习(1)

1. 机器学习的定义

机器学习是指系统通过分析大量经验数据,从数据中归纳规律,以提升特定任务(如预测、分类)完成效果的过程。其核心逻辑为:基于经验数据→归纳规律→优化任务表现,典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石。

主要类型

  • 监督学习:使用带有标签(即已知结果)的数据进行训练,比如用标注了 "垃圾邮件" 或 "正常邮件" 的样本训练模型,使其能判断新邮件的类别。常见算法有线性回归、逻辑回归、决策树、支持向量机等。
  • 无监督学习:训练数据没有标签,机器需要自行发现数据中的隐藏结构,比如将客户按照消费习惯分成不同群体。聚类算法(如 K-means)、降维算法(如主成分分析)是典型代表。
  • 半监督学习:结合少量有标签数据和大量无标签数据进行学习,适用于标签获取成本高的场景,比如医疗影像分析。
  • 强化学习:通过与环境的交互,机器在尝试不同行为的过程中,根据获得的 "奖励" 或 "惩罚" 来调整策略,最终学会最优行为。比如 AlphaGo 下棋、机器人自主导航等。

基本流程

  1. 数据收集与预处理:获取相关数据,并进行清洗(去除噪声、缺失值)、转换(标准化、归一化)等操作,为后续学习做准备。
  2. 选择模型:根据问题类型(分类、回归、聚类等)和数据特点,挑选合适的算法模型。
  3. 训练模型:用处理好的数据对模型进行训练,通过调整模型参数,使模型能更好地拟合数据规律。
  4. 评估与优化:用测试数据检验模型性能,若效果不佳(如准确率低、过拟合),则调整模型参数、更换算法或优化数据,重复训练过程。
  5. 应用模型:将训练好的模型用于实际场景,对新数据进行预测或决策。
2. 基本术语
术语 定义 示例(文档表格简化)
数据集 数据记录的集合 含 17 条西瓜数据的集合(编号 1-17)
样本 数据集中的单条记录 编号 1 的记录:色泽 "青绿"、根蒂 "蜷缩" 等
特征(属性) 描述对象性质的事项 西瓜的 "色泽""根蒂""敲声" 等
属性空间 特征张成的空间 由 "色泽""根蒂""敲声" 等特征构成的多维空间
训练集 含标记信息的训练数据 含 "好瓜" 标签的 14 条西瓜数据(编号 1-14)
测试集 用于测试模型的未知标记数据 3 条未标记 "好瓜" 结果的数据(编号 15-17)
3. 学习类型
  • 监督学习 :使用含 "正确答案"(标记)的数据训练,输出分为两类:
    • 分类:输出离散值(如判断西瓜是否为 "好瓜");
    • 回归:输出连续值(如根据房屋面积、区域预测价格)。
  • 无监督学习 :仅使用无标记数据,自主发现数据结构,典型为聚类(如将样本分为 4 类),应用案例如 "向购买尿布的人推荐葡萄酒" 的关联分析。
  • 集成学习:通过构建并结合多个学习器提升任务效果。
4. 模型评估与选择
  • 核心指标

    • 错误率:分类错误样本占比;精度 = 1 - 错误率;
    • 残差:预测输出与真实输出的差异;
    • 损失函数:衡量预测偏差,值越小模型越好(如通过直线拟合房屋价格与大小的关系)。
  • 拟合问题及处理

    类型 定义 处理方式
    过拟合 过度学习训练数据噪声,泛化能力差 增加数据、降维、正则化、集成学习
    欠拟合 未充分学习数据特征,拟合不足 增加特征、提高模型复杂度、减小正则化系数
  • 评估原则

    • 奥卡姆剃刀:选择能解释数据的最简单模型;
    • 没有免费的午餐(NFL):不存在对所有问题都最优的算法,需结合具体任务。
  • 评估方法

    • 留出法:按 7:3 划分训练集与测试集,需保持数据分布一致(如分层采样);
    • 交叉验证法:将数据分为 k 个互斥子集,用 k-1 个训练、1 个测试,取 k 次结果均值(如 10 折交叉验证)。
  • 评估指标

    • 分类结果:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例);
    • 查准率(P=TP/(TP+FP)):预测为正例的样本中实际为正例的比例;
    • 查全率(R=TP/(TP+FN)):实际为正例的样本中被正确预测的比例;
    • P-R 图:直观对比模型性能,曲线被完全包住的模型更优。
5. 应用领域

涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等。


关键问题

  1. 问题 :机器学习的核心目标是什么?其基本流程可概括为哪几步?
    答案:核心目标是让系统从大量经验数据中归纳规律,提升特定任务的完成效果。基本流程为:收集经验数据→归纳规律→用规律预测新问题→通过反馈优化规律。

  2. 问题 :监督学习与无监督学习的核心区别是什么?分别适用于哪些场景?
    答案:核心区别在于是否使用带标记("正确答案")的数据。监督学习用带标记数据训练,适用于分类(如判断 "好瓜")、回归(如预测房价);无监督学习用无标记数据,适用于发现数据隐藏结构(如聚类分群、购物篮关联分析)。

  3. 问题 :什么是过拟合?导致过拟合的主要原因及处理方式是什么?
    答案:过拟合是模型过度学习训练数据中的噪声,导致对新数据泛化能力差的现象。主要原因是训练数据噪声多或模型过于复杂。处理方式包括:增加训练数据、降维(丢弃无关特征)、正则化(减小参数规模)、采用集成学习(结合多个模型降低风险)。

相关推荐
沧海一粟青草喂马18 分钟前
国产GEO工具哪家强?巨推集团、SEO研究协会网、业界科技三强对比
人工智能
小陈phd21 分钟前
高级RAG策略学习(六)——Contextual Chunk Headers(CCH)技术
人工智能·langchain
beot学AI26 分钟前
机器学习之逻辑回归
人工智能·机器学习·逻辑回归
西猫雷婶42 分钟前
神经网络|(十九)概率论基础知识-伽马函数·下
人工智能·深度学习·神经网络·机器学习·回归·scikit-learn·概率论
三只小黄人42 分钟前
AI驱动开发:颠覆传统编程新范式
人工智能·驱动开发
2401_858869801 小时前
支持向量机
算法·机器学习·支持向量机
沐雪架构师1 小时前
Docling将pdf转markdown以及与AI生态集成
人工智能·pdf
kevin 11 小时前
扫描件、PDF、图片都能比对!让文档差异无所遁形
大数据·人工智能·pdf
算家云2 小时前
腾讯最新开源HunyuanVideo-Foley本地部署教程:端到端TV2A框架,REPA策略+MMDiT架构,重新定义视频音效新SOTA!
人工智能·音视频·算家云·hunyuanvideo·模型部署教程·镜像社区
小王爱学人工智能2 小时前
迁移学习的案例
人工智能·机器学习·迁移学习