机器学习(1)

1. 机器学习的定义

机器学习是指系统通过分析大量经验数据,从数据中归纳规律,以提升特定任务(如预测、分类)完成效果的过程。其核心逻辑为:基于经验数据→归纳规律→优化任务表现,典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石。

主要类型

  • 监督学习:使用带有标签(即已知结果)的数据进行训练,比如用标注了 "垃圾邮件" 或 "正常邮件" 的样本训练模型,使其能判断新邮件的类别。常见算法有线性回归、逻辑回归、决策树、支持向量机等。
  • 无监督学习:训练数据没有标签,机器需要自行发现数据中的隐藏结构,比如将客户按照消费习惯分成不同群体。聚类算法(如 K-means)、降维算法(如主成分分析)是典型代表。
  • 半监督学习:结合少量有标签数据和大量无标签数据进行学习,适用于标签获取成本高的场景,比如医疗影像分析。
  • 强化学习:通过与环境的交互,机器在尝试不同行为的过程中,根据获得的 "奖励" 或 "惩罚" 来调整策略,最终学会最优行为。比如 AlphaGo 下棋、机器人自主导航等。

基本流程

  1. 数据收集与预处理:获取相关数据,并进行清洗(去除噪声、缺失值)、转换(标准化、归一化)等操作,为后续学习做准备。
  2. 选择模型:根据问题类型(分类、回归、聚类等)和数据特点,挑选合适的算法模型。
  3. 训练模型:用处理好的数据对模型进行训练,通过调整模型参数,使模型能更好地拟合数据规律。
  4. 评估与优化:用测试数据检验模型性能,若效果不佳(如准确率低、过拟合),则调整模型参数、更换算法或优化数据,重复训练过程。
  5. 应用模型:将训练好的模型用于实际场景,对新数据进行预测或决策。
2. 基本术语
术语 定义 示例(文档表格简化)
数据集 数据记录的集合 含 17 条西瓜数据的集合(编号 1-17)
样本 数据集中的单条记录 编号 1 的记录:色泽 "青绿"、根蒂 "蜷缩" 等
特征(属性) 描述对象性质的事项 西瓜的 "色泽""根蒂""敲声" 等
属性空间 特征张成的空间 由 "色泽""根蒂""敲声" 等特征构成的多维空间
训练集 含标记信息的训练数据 含 "好瓜" 标签的 14 条西瓜数据(编号 1-14)
测试集 用于测试模型的未知标记数据 3 条未标记 "好瓜" 结果的数据(编号 15-17)
3. 学习类型
  • 监督学习 :使用含 "正确答案"(标记)的数据训练,输出分为两类:
    • 分类:输出离散值(如判断西瓜是否为 "好瓜");
    • 回归:输出连续值(如根据房屋面积、区域预测价格)。
  • 无监督学习 :仅使用无标记数据,自主发现数据结构,典型为聚类(如将样本分为 4 类),应用案例如 "向购买尿布的人推荐葡萄酒" 的关联分析。
  • 集成学习:通过构建并结合多个学习器提升任务效果。
4. 模型评估与选择
  • 核心指标

    • 错误率:分类错误样本占比;精度 = 1 - 错误率;
    • 残差:预测输出与真实输出的差异;
    • 损失函数:衡量预测偏差,值越小模型越好(如通过直线拟合房屋价格与大小的关系)。
  • 拟合问题及处理

    类型 定义 处理方式
    过拟合 过度学习训练数据噪声,泛化能力差 增加数据、降维、正则化、集成学习
    欠拟合 未充分学习数据特征,拟合不足 增加特征、提高模型复杂度、减小正则化系数
  • 评估原则

    • 奥卡姆剃刀:选择能解释数据的最简单模型;
    • 没有免费的午餐(NFL):不存在对所有问题都最优的算法,需结合具体任务。
  • 评估方法

    • 留出法:按 7:3 划分训练集与测试集,需保持数据分布一致(如分层采样);
    • 交叉验证法:将数据分为 k 个互斥子集,用 k-1 个训练、1 个测试,取 k 次结果均值(如 10 折交叉验证)。
  • 评估指标

    • 分类结果:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例);
    • 查准率(P=TP/(TP+FP)):预测为正例的样本中实际为正例的比例;
    • 查全率(R=TP/(TP+FN)):实际为正例的样本中被正确预测的比例;
    • P-R 图:直观对比模型性能,曲线被完全包住的模型更优。
5. 应用领域

涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等。


关键问题

  1. 问题 :机器学习的核心目标是什么?其基本流程可概括为哪几步?
    答案:核心目标是让系统从大量经验数据中归纳规律,提升特定任务的完成效果。基本流程为:收集经验数据→归纳规律→用规律预测新问题→通过反馈优化规律。

  2. 问题 :监督学习与无监督学习的核心区别是什么?分别适用于哪些场景?
    答案:核心区别在于是否使用带标记("正确答案")的数据。监督学习用带标记数据训练,适用于分类(如判断 "好瓜")、回归(如预测房价);无监督学习用无标记数据,适用于发现数据隐藏结构(如聚类分群、购物篮关联分析)。

  3. 问题 :什么是过拟合?导致过拟合的主要原因及处理方式是什么?
    答案:过拟合是模型过度学习训练数据中的噪声,导致对新数据泛化能力差的现象。主要原因是训练数据噪声多或模型过于复杂。处理方式包括:增加训练数据、降维(丢弃无关特征)、正则化(减小参数规模)、采用集成学习(结合多个模型降低风险)。

相关推荐
用户5191495848455 分钟前
使用CSS和GSAP创建3D滚动驱动文本动画
人工智能·aigc
B站计算机毕业设计之家5 分钟前
大数据python招聘数据分析预测系统 招聘数据平台 +爬虫+可视化 +django框架+vue框架 大数据技术✅
大数据·爬虫·python·机器学习·数据挖掘·数据分析
网络精创大傻10 分钟前
构建 Multilingo:一个集成 Telex 的 AI 翻译代理
人工智能·搜索引擎
AI科技星18 分钟前
宇宙的几何诗篇:当空间本身成为运动的主角
数据结构·人工智能·经验分享·算法·计算机视觉
胡桃不是夹子28 分钟前
torch和torchvision对应版本匹配官网下载
人工智能·python·深度学习
集和诚JHCTECH33 分钟前
专为严苛环境而生:高防护等级工业防水平板WPPC-H1520T(P)
人工智能·嵌入式硬件·平板
mit6.8241 小时前
[手机AI开发sdk] 模型冻结&解冻.pb | `aidlite`加速AI模型
人工智能·智能手机
落798.1 小时前
基于 GitCode 云端环境的 CANN ops-math 算子库深度测评:Ascend NPU 上的数学引擎解析
人工智能·gitcode
九河云1 小时前
华为云ECS与Flexus云服务器X实例:差异解析与选型指南
大数据·运维·服务器·网络·人工智能·华为云
AI优秘企业大脑1 小时前
如何提升自动化业务流程的效率?
大数据·人工智能