机器学习(1)

1. 机器学习的定义

机器学习是指系统通过分析大量经验数据,从数据中归纳规律,以提升特定任务(如预测、分类)完成效果的过程。其核心逻辑为:基于经验数据→归纳规律→优化任务表现,典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石。

主要类型

  • 监督学习:使用带有标签(即已知结果)的数据进行训练,比如用标注了 "垃圾邮件" 或 "正常邮件" 的样本训练模型,使其能判断新邮件的类别。常见算法有线性回归、逻辑回归、决策树、支持向量机等。
  • 无监督学习:训练数据没有标签,机器需要自行发现数据中的隐藏结构,比如将客户按照消费习惯分成不同群体。聚类算法(如 K-means)、降维算法(如主成分分析)是典型代表。
  • 半监督学习:结合少量有标签数据和大量无标签数据进行学习,适用于标签获取成本高的场景,比如医疗影像分析。
  • 强化学习:通过与环境的交互,机器在尝试不同行为的过程中,根据获得的 "奖励" 或 "惩罚" 来调整策略,最终学会最优行为。比如 AlphaGo 下棋、机器人自主导航等。

基本流程

  1. 数据收集与预处理:获取相关数据,并进行清洗(去除噪声、缺失值)、转换(标准化、归一化)等操作,为后续学习做准备。
  2. 选择模型:根据问题类型(分类、回归、聚类等)和数据特点,挑选合适的算法模型。
  3. 训练模型:用处理好的数据对模型进行训练,通过调整模型参数,使模型能更好地拟合数据规律。
  4. 评估与优化:用测试数据检验模型性能,若效果不佳(如准确率低、过拟合),则调整模型参数、更换算法或优化数据,重复训练过程。
  5. 应用模型:将训练好的模型用于实际场景,对新数据进行预测或决策。
2. 基本术语
术语 定义 示例(文档表格简化)
数据集 数据记录的集合 含 17 条西瓜数据的集合(编号 1-17)
样本 数据集中的单条记录 编号 1 的记录:色泽 "青绿"、根蒂 "蜷缩" 等
特征(属性) 描述对象性质的事项 西瓜的 "色泽""根蒂""敲声" 等
属性空间 特征张成的空间 由 "色泽""根蒂""敲声" 等特征构成的多维空间
训练集 含标记信息的训练数据 含 "好瓜" 标签的 14 条西瓜数据(编号 1-14)
测试集 用于测试模型的未知标记数据 3 条未标记 "好瓜" 结果的数据(编号 15-17)
3. 学习类型
  • 监督学习 :使用含 "正确答案"(标记)的数据训练,输出分为两类:
    • 分类:输出离散值(如判断西瓜是否为 "好瓜");
    • 回归:输出连续值(如根据房屋面积、区域预测价格)。
  • 无监督学习 :仅使用无标记数据,自主发现数据结构,典型为聚类(如将样本分为 4 类),应用案例如 "向购买尿布的人推荐葡萄酒" 的关联分析。
  • 集成学习:通过构建并结合多个学习器提升任务效果。
4. 模型评估与选择
  • 核心指标

    • 错误率:分类错误样本占比;精度 = 1 - 错误率;
    • 残差:预测输出与真实输出的差异;
    • 损失函数:衡量预测偏差,值越小模型越好(如通过直线拟合房屋价格与大小的关系)。
  • 拟合问题及处理

    类型 定义 处理方式
    过拟合 过度学习训练数据噪声,泛化能力差 增加数据、降维、正则化、集成学习
    欠拟合 未充分学习数据特征,拟合不足 增加特征、提高模型复杂度、减小正则化系数
  • 评估原则

    • 奥卡姆剃刀:选择能解释数据的最简单模型;
    • 没有免费的午餐(NFL):不存在对所有问题都最优的算法,需结合具体任务。
  • 评估方法

    • 留出法:按 7:3 划分训练集与测试集,需保持数据分布一致(如分层采样);
    • 交叉验证法:将数据分为 k 个互斥子集,用 k-1 个训练、1 个测试,取 k 次结果均值(如 10 折交叉验证)。
  • 评估指标

    • 分类结果:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例);
    • 查准率(P=TP/(TP+FP)):预测为正例的样本中实际为正例的比例;
    • 查全率(R=TP/(TP+FN)):实际为正例的样本中被正确预测的比例;
    • P-R 图:直观对比模型性能,曲线被完全包住的模型更优。
5. 应用领域

涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等。


关键问题

  1. 问题 :机器学习的核心目标是什么?其基本流程可概括为哪几步?
    答案:核心目标是让系统从大量经验数据中归纳规律,提升特定任务的完成效果。基本流程为:收集经验数据→归纳规律→用规律预测新问题→通过反馈优化规律。

  2. 问题 :监督学习与无监督学习的核心区别是什么?分别适用于哪些场景?
    答案:核心区别在于是否使用带标记("正确答案")的数据。监督学习用带标记数据训练,适用于分类(如判断 "好瓜")、回归(如预测房价);无监督学习用无标记数据,适用于发现数据隐藏结构(如聚类分群、购物篮关联分析)。

  3. 问题 :什么是过拟合?导致过拟合的主要原因及处理方式是什么?
    答案:过拟合是模型过度学习训练数据中的噪声,导致对新数据泛化能力差的现象。主要原因是训练数据噪声多或模型过于复杂。处理方式包括:增加训练数据、降维(丢弃无关特征)、正则化(减小参数规模)、采用集成学习(结合多个模型降低风险)。

相关推荐
AngelPP3 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年3 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼3 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS4 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区5 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈5 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang5 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk17 小时前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能
西门老铁8 小时前
🦞OpenClaw 让 MacMini 脱销了,而我拿出了6年陈的安卓机
人工智能