2025年7月8日学习笔记——模式识别与机器学习绪论

2025年7月8日学习笔记------模式识别与机器学习绪论

一.监督模式识别和非监督模式识别

1.监督模式识别

已知要划分的类别,并且能够获得一定数量的类别已知的的训练样本,这种情况下建立的分类器的问题,属于监督学习的问题。

2.非监督模式识别

1.非监督模式识别(聚类):
(1)根据样本特征将样本聚成几个类,使同一个类的样本在一定意义上是相似的------得到的类别也是聚类
(2)发现数据中存在的线性或非线性的结构关系(例如高维数据中存在的某种低维结构,或者能够体现数据间某种内在关系的低维表示。

(1)事先不知道要划分的是什么类别
(2)没有已知的样本用作训练
(3)不知道有多少类别

满足以上任意一条都是非监督模式识别

二.模式识别系统举例

1.语音识别

1.(1)语音通过信号采集进入计算机,成为数字化的时间序列信号。

(2)预处理原始语音信号------按照一定的时窗分割成一些小的片段,将连续的语音分成相对孤立的音素,以这样的音素作为识别的基本单位。

(3)音素经过信号处理后,提取特征向量。

2.最经典分类器:隐马尔可夫模型
一段自然的语音是由一系列连续的因素构成的,而不是一个个相互独立的因素。在语音识别系统中并不是对每一个因素样本进行分类,而是用一个更高一层的马尔可夫模型把相邻的音素联合起来。

三.模式识别系统的典型构成

一个模式识别系统通常包括原始数据的获取和预处理、特征提取与选择、分类或者聚类、后处理 四个主要部分。

处理监督模式识别问题的一般步骤:

  1. 分析问题

    • 深入研究应用领域的问题
    • 分析是否属于模式识别问题
    • 将研究目标表示为特定类别
    • 分析给定/可观测数据中与分类相关的因素
  2. 原始特征获取

    • 设计实验获取已知样本
    • 对样本进行观测和预处理
    • 获取可能与分类相关的观测向量(原始特征)
  3. 特征提取与选择

    • 采用算法对特征进行再提取和选择
    • 优化特征表示以提升分类效果
  4. 分类器设计

    • 选择合适的分类器方法
    • 使用已知样本训练分类器
  5. 分类决策

    • 评估分类器性能
    • 对未知样本实施相同处理流程:
      • 观测 → 预处理 → 特征提取与选择
    • 使用训练好的分类器进行分类
    • 必要时结合领域知识进行后处理

以下是按照顺序提取的两张图片中的完整文字内容,并进行了结构化整理:


处理非监督模式识别问题的一般步骤

1. 分析问题
  • 深入研究应用领域的问题
  • 分析研究目标能否通过寻找适当的聚类实现
  • 如果可能,猜测可能的或希望的类别数目
  • 分析给定数据或可观测数据中哪些因素可能与聚类有关
2. 原始特征获取
  • 设计实验,得到待分析的样本
  • 对样本实施观测和预处理
  • 获取可能与样本聚类有关的观测向量(原始特征)
3. 特征提取与选择
  • 采用算法对特征进行再次提取和选择
  • 优化特征以提升聚类效果
4. 聚类分析
  • 选择合适的非监督模式识别方法(如K-means、层次聚类等)
  • 用样本进行聚类分析
5. 结果解释
  • 评估聚类性能(如轮廓系数、肘部法则)
  • 分析聚类结果与研究目标的关系
  • 结合领域知识验证合理性
  • 对新样本应用聚类结果进行分类

流程对比(监督 vs 非监督)

步骤 监督模式识别 非监督模式识别
问题分析 明确定义类别标签 猜测可能的类别数量
特征处理 提取与分类相关的特征 提取与聚类相关的特征
核心方法 分类器训练(如SVM、决策树) 聚类分析(如K-means、DBSCAN)
结果验证 使用标注数据评估准确率 通过指标和领域知识解释合理性

关键区别

  • 输入数据:非监督学习无需标注数据,直接探索数据内在结构
  • 目标:监督学习预测已知类别,非监督学习发现未知分组
  • 评估:监督学习有明确指标,非监督学习依赖解释性分析

💡 应用场景:客户细分、异常检测、基因序列分组等无标签数据场景。

相关推荐
袁小皮皮不皮10 小时前
1.HCIP BFD 学习笔记(优化版)
服务器·网络·笔记·网络协议·学习·智能路由器·ip
装不满的克莱因瓶10 小时前
【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准
人工智能·pytorch·python·深度学习·学习·机器学习·自动驾驶
FL162386312911 小时前
户外垃圾类型检测数据集VOC+YOLO格式4278张10类别
人工智能·yolo·机器学习
清辞85311 小时前
产品经理需求推进流程
大数据·深度学习·学习·产品经理
YM52e12 小时前
鸿蒙PC ArkTS 声明合并问题深度解析与最佳实践
学习·华为·harmonyos·鸿蒙·鸿蒙系统
海兰13 小时前
【实用程序】电商销售分析仪表盘 — 从零搭建一个AI参与的全栈数据洞察系统
人工智能·学习·算法
咋吃都不胖lyh13 小时前
DBSCAN(基于密度的空间聚类应用与噪声)算法
人工智能·机器学习
ken223213 小时前
在 Libreoffice Calc中输入自定义表情字符时,需要保存之后,才能正常显示
学习
zwenqiyu13 小时前
P5283 [十二省联考 2019] 异或粽子题解
c++·学习·算法
青山如墨雨如画13 小时前
【北邮-无线通信中的人工智能】物理层技术中AI的应用实践:基于KNN的调制识别(1)理论基础
人工智能·python·机器学习·matlab·jupyter