数学建模期末速成 聚类分析与判别分析

聚类分析是在不知道有多少类别的前提下,建立某种规则对样本或变量进行分类。判别分析是已知类别,在已知训练样本的前提下,利用训练样本得到判别函数,然后对未知类别的测试样本判别其类别。

聚类分析

根据样本自身的属性,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系 ,并按这种亲疏关系程度对样本进行分类。常见的聚类分析方法有系统聚类法动态聚类法模糊聚类法等。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。

数据变换

由于样本数据矩阵由多个指标组成,不同指标一般有不同的量纲,为消除量纲的影响,通常需要进行数据变换处理。常用的数据变换方法有:

  • 中心化处理:先求出每个变量的样本平均值,再从原始数据中减去该变量的均值
    b i j = a i j − μ j   , i = 1   , ⋯   , n   ; j = 1   , ⋯   , p   , 式中 : μ j = ∑ i = 1 n a i j n b_{ij}=a_{ij}-\mu_{j}\:, \quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_j=\frac{\sum_{i=1}^na_{ij}}n bij=aij−μj,i=1,⋯,n;j=1,⋯,p,式中:μj=n∑i=1naij
  • 规格化处理:每一个变量的原始数据减去该变量中的最小值,再除以极差
    b i j = a i j − min ⁡ 1 ≤ i ≤ n (   a i j   ) max ⁡ 1 ≤ i ≤ n (   a i j   ) − min ⁡ 1 ≤ i ≤ n (   a i j ) , i = 1   , ⋯   , n   ; j = 1   , ⋯   , p . b_{ij}=\frac{a_{ij}-\min_{1\leq i\leq n}\left(\:a_{ij}\:\right)}{\max_{1\leq i\leq n}\left(\:a_{ij}\:\right)-\min_{1\leq i\leq n}\left(\:a_{ij}\right)},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p. bij=max1≤i≤n(aij)−min1≤i≤n(aij)aij−min1≤i≤n(aij),i=1,⋯,n;j=1,⋯,p.
  • 标准化变换:先对每个变量进行中心化变换,然后用该变量的标准差进行标准化
    b i j = a i j − μ j s j , i = 1   , ⋯   , n   ; j = 1   , ⋯   , p   , 式中 : μ j = ∑ i = 1 n a i j n ; s j = 1 n − 1 ∑ i = 1 n ( a i j − μ j ) 2 b_{ij}=\frac{a_{ij}-\mu_{j}}{s_{j}},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_{j}=\frac{\sum_{i=1}^{n}a_{ij}}{n};s_{j}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(a_{ij}-\mu_{j}\right)^{2}} bij=sjaij−μj,i=1,⋯,n;j=1,⋯,p,式中:μj=n∑i=1naij;sj=n−11i=1∑n(aij−μj)2

样品(或指标)间亲疏程度的测度计算

研究样品或变量的亲疏程度或相似程度的数量指标通常有两种:

  • 相似系数,性质越接近的变量或样品,其取值越接近于1或-1,而彼此无关的变量或样品的相似系数则越接近于0,相似的归为一类,不相似的归为不同类。
  • 距离,它将每个样品看成p维空间的一个点,n个样品组成p维空间的n个点。用各点之间的距离来衡量各样品之间的相似程度(或靠近程度)。距离近的点归为一类,距离远的点属于不同的类。

对于变量 之间的聚类(R型)常用相似系数 来测度变量之间的亲疏程度,而对于样品 之间的聚类(Q型),则常用距离来测度样品之间的亲疏程度。

相似系数的计算
  • 夹角余弦
    cos ⁡ θ i j = ∑ k = 1 p b i k b j k ∑ k = 1 p b i k 2 ⋅ ∑ k = 1 p b j k 2 , i , j = 1 , 2 , ⋯   , n . \cos\theta_{ij}=\frac{\sum_{k=1}^pb_{ik}b_{jk}}{\sqrt{\sum_{k=1}^pb_{ik}^2}\cdot\sqrt{\sum_{k=1}^pb_{jk}^2}},\quad i,j=1,2,\cdots,n. cosθij=∑k=1pbik2 ⋅∑k=1pbjk2 ∑k=1pbikbjk,i,j=1,2,⋯,n.
  • 皮尔逊相关系数
    r i j = ∑ k = 1 p (   b i k   −   μ ‾ i   )   (   b j k   −   μ ‾ j   ) ∑ k = 1 p   (   b i k   −   μ ‾ i   ) 2   ⋅   ∑ k = 1 p   (   b j k   − μ ‾ j   ) 2 , i , j = 1   , 2   , ⋯   , n   , 式中 : μ ‾ i = ∑ k = 1 p b i k p r_{ij}=\frac{\sum_{k=1}^p(\:b_{ik}\:-\:\overline{\mu}i\:)\:(\:b{jk}\:-\:\overline{\mu}j\:)}{\sqrt{\sum{k=1}^p\:(\:b_{ik}\:-\:\overline{\mu}i\:)^2}\:\cdot\:\sqrt{\sum{k=1}^p\:(\:b_{jk}\:-\overline{\mu}j\:)^2}},\quad i,j=1\:,2\:,\cdots,n\:,\text{式中}:\overline{\mu}i=\frac{\sum{k=1}^pb{ik}}{p} rij=∑k=1p(bik−μi)2 ⋅∑k=1p(bjk−μj)2 ∑k=1p(bik−μi)(bjk−μj),i,j=1,2,⋯,n,式中:μi=p∑k=1pbik
距离计算
  • 闵式距离
    . . . ... ...
  • 马氏距离
    d (   ω i   , ω j   ) = (   ω i − ω j   ) ∑ − 1 (   ω i   − ω j   ) T d\left(\:\omega_{i}\:,\omega_{j}\:\right)=\sqrt{\left(\:\omega_{i}-\omega_{j}\:\right)\sum^{-1}\left(\:\omega_{i}\:-\omega_{j}\:\right)^{\mathrm{T}}} d(ωi,ωj)=(ωi−ωj)∑−1(ωi−ωj)T
    式中: ω i 表示矩阵 B 的第 i 行 ; Σ 表示观测变量之间的协方差阵 , Σ = ( σ i j ) p × p , 其中 σ i j = 1 n − 1 ∑ k = 1 n ( b k i − μ i ) ( b i j − μ j ) , i , j = 1 , 2 , ⋯   , p   , 式中 : μ j = 1 n ∑ k = 1 n b k j \begin{aligned}&\text{式中:}\omega_i\text{ 表示矩阵 }B\text{ 的第 }i\text{ 行};\boldsymbol{\Sigma}\text{ 表示观测变量之间的协方差阵},\boldsymbol{\Sigma}=\left(\sigma_{ij}\right){p\times p},\text{其中}\\&\sigma{ij}=\frac1{n-1}\sum_{k=1}^n\left(b_{ki}-\mu_i\right)\left(b_{ij}-\mu_j\right),\quad i,j=1,2,\cdots,p\:,\\&\text{式中}:\mu_j=\frac1n\sum_{k=1}^nb_{kj}\end{aligned} 式中:ωi 表示矩阵 B 的第 i 行;Σ 表示观测变量之间的协方差阵,Σ=(σij)p×p,其中σij=n−11k=1∑n(bki−μi)(bij−μj),i,j=1,2,⋯,p,式中:μj=n1k=1∑nbkj

基于类间距离的系统聚类

系统聚类法是聚类分析方法中使用最多的方法。其基本思想是:距离相近的样品(或变量)先聚为一类,距离远的后聚成类,此过程一直进行下去,每个样品总能聚到合适的类中。它包括如下步骤

(1)将每个样品(或变量)独自聚成一类,构造n个类。

(2)根据所确定的样品(或变量)距离公式,计算个样品(或变量)两两间的距离,构造距离矩阵,记为 D ( 0 ) D_{(0)} D(0)

(3)把距离最近的两类归为一新类,其他样品(或变量)仍各自聚为一类,共聚成n-1类。

(4)计算新类与当前各类的距离,将距离最近的两个类进一步聚成一类,共聚成-2类。以上步骤一直进行下去,最后将所有的样品(或变量)聚成一类。

(5)画聚类谱系图。

(6)决定类的个数及各类包含的样品数,并对类做出解释

类与类之间的距离

最短距离法

最长距离法

其他系统聚类方法

  • 重心法
  • 类平均法
  • 离差平方和法

动态聚类法

...

R型聚类法

...

判别分析

距离判别法(最近邻方法)

距离判别法的基本思想:根据已知分类的数据,分别计算各类的重心即分组(类)的均值,对任意给定的一个样品,若它与第 i 类的重心距离最近,就认为它来自第 i 类。因此,距离判别法又称为最近邻方法。

Fisher判别

Fisher判别的基本思想是投影,即将表面上不易分类的数据通过投影到某个方向上,使得投影类与类之间得以分离的一种判别方法

相关推荐
甄心爱学习4 小时前
信息检索11-语言模型
数学建模·语言模型·全文检索
一只小小的土拨鼠1 天前
2025数维杯秋季赛思路+模型+代码+论文详解(开赛后持续更新)---------2025年第十一届数维杯国际大学生数学建模挑战赛(国际赛)
数学建模
异构算力老群群1 天前
2025 爆火!海市蜃楼优化算法 MSO(Mirage Search Optimization):物理灵感 + 数学建模 + 实战代码,一文吃透前沿群智能算法
数学建模·启发式算法·优化算法·进化计算·海市蜃楼优化算法·群智能优化
极客学术工坊4 天前
2023年第十三届MathorCup高校数学建模挑战赛-C题 电商物流网络包裹应急调运与结构优化问题
数学建模·动态规划·启发式算法
MoRanzhi12035 天前
Python 实现:从数学模型到完整控制台版《2048》游戏
数据结构·python·算法·游戏·数学建模·矩阵·2048
2301_764441336 天前
水星热演化核幔耦合数值模拟
python·算法·数学建模
极客学术工坊7 天前
2023年第二十届五一数学建模竞赛-A题 无人机定点投放问题-基于抛体运动的无人机定点投放问题研究
人工智能·机器学习·数学建模·启发式算法
极客学术工坊7 天前
2022年第十二届MathorCup高校数学建模挑战赛-D题 移动通信网络站址规划和区域聚类问题
机器学习·数学建模·启发式算法·聚类
人大博士的交易之路7 天前
龙虎榜——20251106
大数据·数学建模·数据分析·缠论·缠中说禅·龙虎榜
Cathy Bryant8 天前
概率论直觉(一):大数定律
笔记·考研·数学建模