TFS-2023《Fuzzy Clustering With Knowledge Extraction and Granulation》

2. 核心思想

这篇论文的核心思想是将知识引导机制引入模糊聚类算法，并特别关注知识本身的不确定性。传统知识引导聚类（如V-FCM）使用精确的数值型知识（视点）。本文认为现实中的知识往往是不确定的、模糊的（例如，一个高密度区域无法用一个精确点表示）。因此，作者提出：

知识粒化 (Knowledge Granulation): 将精确的数值型知识扩展为知识粒 (Knowledge Granules)，使用区间数 (Interval Numbers) 或三角模糊数 (Triangular Fuzzy Numbers) 来表示，以捕捉知识的不确定性。
自动知识提取 (Automatic Knowledge Extraction): 设计了一种名为KEG (Knowledge Extraction and Granulation) 的方法，自动地从待聚类数据集中识别出高密度区域，并将其形式化为知识粒。这解决了手动指定知识成本高的问题。
知识引导的模糊聚类框架: 提出一个基于知识粒的模糊聚类模型框架。该框架利用KEG提取的知识粒来引导聚类过程，但不直接强制替换聚类中心（避免了V-FCM/IV-FCM/DVPFCM中知识过度影响的问题），而是通过在目标函数中加入一个知识引导项，让聚类中心在迭代优化过程中受到知识粒的吸引，从而更灵活、更稳健地发现数据潜在结构。

3. 目标函数

论文提出了两种基于不同类型知识粒的算法变体：IKG-FCM（使用区间知识粒）和TKG-FCM（使用三角知识粒）。它们共享相似的目标函数结构，记为KG-FCM的目标函数：

JKG−FCM=∑i=1n∑j=1cuijmηidKG2(vj,xi)+ζ(∑j=1c∑k=1KωjkdKG2(vj,ggk)+∑j=1cσj∑k=1K(ωjkln⁡ωjk−ωjk)) J_{KG-FCM} = \sum_{i=1}^{n} \sum_{j=1}^{c} u_{ij}^m \eta_i d_{KG}^2(v_j, x_i) + \zeta \left( \sum_{j=1}^{c} \sum_{k=1}^{K} \omega_{jk} d_{KG}^2(v_j, gg_k) + \sum_{j=1}^{c} \sigma_j \sum_{k=1}^{K} (\omega_{jk} \ln \omega_{jk} - \omega_{jk}) \right) JKG−FCM=i=1∑nj=1∑cuijmηidKG2(vj,xi)+ζ(j=1∑ck=1∑KωjkdKG2(vj,ggk)+j=1∑cσjk=1∑K(ωjklnωjk−ωjk))

约束条件： ∑j=1cuij=1\sum_{j=1}^{c} u_{ij} = 1∑j=1cuij=1, 0≤uij≤10 \leq u_{ij} \leq 10≤uij≤1, 0≤ηi≤10 \leq \eta_i \leq 10≤ηi≤1, 0≤ωjk≤10 \leq \omega_{jk} \leq 10≤ωjk≤1

符号解释：

nnn: 数据点总数。
ccc: 聚类数。
uiju_{ij}uij: 数据点 xix_ixi 属于第 jjj 个聚类的隶属度。
mmm: 模糊指数 (fuzziness index)。
ηi\eta_iηi: 与数据点 xix_ixi 相关的权重，用于调整其在第一项中的重要性。
dKG2(vj,xi)d_{KG}^2(v_j, x_i)dKG2(vj,xi): 第 jjj 个聚类中心 vjv_jvj 与数据点 xix_ixi 之间的距离平方（根据聚类中心和数据点的类型，具体形式会变化）。
ζ\zetaζ: 平衡数据项和知识引导项影响的非负参数。
KKK: 提取的知识粒总数。
ggkgg_kggk: 第 kkk 个知识粒（对于IKG-FCM是 igkig_kigk，对于TKG-FCM是 tgktg_ktgk）。
ωjk\omega_{jk}ωjk: 第 kkk 个知识粒对第 jjj 个聚类中心的影响权重。
σj\sigma_jσj: 与第 jjj 个聚类中心相关的参数，定义为 σj=dist(vj,Gˉ)2\sigma_j = dist(v_j, \bar{G})^2σj=dist(vj,Gˉ)2，其中 Gˉ=1K∑k=1Kgk\bar{G} = \frac{1}{K} \sum_{k=1}^{K} g_kGˉ=K1∑k=1Kgk 是所有原始高密度点的均值。
第二项中的最后一部分是一个熵正则化项，防止 ωjk\omega_{jk}ωjk 取到平凡解（如0）。

距离度量：

对于区间知识粒 (IKG-FCM): dKGd_{KG}dKG 是 dIGd_{IG}dIG，ggkgg_kggk 是 igk=[igkL,igkR]ig_k=[ig_{k}^{L}, ig_{k}^{R}]igk=[igkL,igkR]。距离定义为：
dIG2(vj,igk)=∑t=1d(vjtL−igktL)2+(vjtR−igktR)22d_{IG}^2(v_j, ig_k) = \sum_{t=1}^{d} \frac{(v_{jt}^{L} - ig_{kt}^{L})^2 + (v_{jt}^{R} - ig_{kt}^{R})^2}{2}dIG2(vj,igk)=t=1∑d2(vjtL−igktL)2+(vjtR−igktR)2
(其中 vj=[vjL,vjR]v_j=[v_{j}^{L}, v_{j}^{R}]vj=[vjL,vjR])
对于三角知识粒 (TKG-FCM): dKGd_{KG}dKG 是 dTGd_{TG}dTG，ggkgg_kggk 是 tgk=(tgkL,tgkM,tgkR)tg_k=(tg_{k}^{L}, tg_{k}^{M}, tg_{k}^{R})tgk=(tgkL,tgkM,tgkR)。距离使用文献[39]中的积分度量：
dTG2(vj,tgk)=∑t=1d(α6(vjtL−tgktL)2+(1−53α)(vjtM−tgktM)2+α6(vjtR−tgktR)2+α6(vjtL−tgktL+vjtM−tgktM)2+α6(vjtR−tgktR+vjtM−tgktM)2)d_{TG}^2(v_j, tg_k) = \sum_{t=1}^{d} \left( \frac{\alpha}{6}(v_{jt}^{L} - tg_{kt}^{L})^2 + (1 - \frac{5}{3}\alpha)(v_{jt}^{M} - tg_{kt}^{M})^2 + \frac{\alpha}{6}(v_{jt}^{R} - tg_{kt}^{R})^2 + \frac{\alpha}{6}(v_{jt}^{L} - tg_{kt}^{L} + v_{jt}^{M} - tg_{kt}^{M})^2 + \frac{\alpha}{6}(v_{jt}^{R} - tg_{kt}^{R} + v_{jt}^{M} - tg_{kt}^{M})^2 \right)dTG2(vj,tgk)=t=1∑d(6α(vjtL−tgktL)2+(1−35α)(vjtM−tgktM)2+6α(vjtR−tgktR)2+6α(vjtL−tgktL+vjtM−tgktM)2+6α(vjtR−tgktR+vjtM−tgktM)2)
(其中 0<α<0.50 < \alpha < 0.50<α<0.5，论文中取 α=0.25\alpha=0.25α=0.25，vj=(vjL,vjM,vjR)v_j=(v_{j}^{L}, v_{j}^{M}, v_{j}^{R})vj=(vjL,vjM,vjR))

数据点权重 ηi\eta_iηi 的计算：
ηi=1−min⁡k=1,...,K(dist(xi,gk))max⁡j=1,...,n(min⁡k=1,...,K(dist(xj,gk))) \eta_i = 1 - \frac{\min_{k=1,\ldots,K}(dist(x_i, g_k))}{\max_{j=1,\ldots,n}(\min_{k=1,\ldots,K}(dist(x_j, g_k)))} ηi=1−maxj=1,...,n(mink=1,...,K(dist(xj,gk)))mink=1,...,K(dist(xi,gk))

这表示距离知识点越近的数据点，在聚类中拥有更高的权重。

4. 目标函数详细的优化过程

优化过程采用交替优化策略，通过拉格朗日乘数法推导出更新规则：

隶属度 uiju_{ij}uij 的更新：
uij=dKG(vj,xi)−2m−1∑j′=1cdKG(vj′,xi)−2m−1u_{ij} = \frac{d_{KG}(v_j, x_i)^{-\frac{2}{m-1}}}{\sum_{j'=1}^{c} d_{KG}(v_{j'}, x_i)^{-\frac{2}{m-1}}}uij=∑j′=1cdKG(vj′,xi)−m−12dKG(vj,xi)−m−12

这与标准FCM的更新规则形式一致，但距离度量 dKGd_{KG}dKG 可能不同。
知识影响权重 ωjk\omega_{jk}ωjk 的更新：
ωjk=exp⁡(−dKG(vj,ggk)22σj)\omega_{jk} = \exp\left(-\frac{d_{KG}(v_j, gg_k)^2}{2 \sigma_j} \right)ωjk=exp(−2σjdKG(vj,ggk)2)

这表明聚类中心 vjv_jvj 距离知识粒 ggkgg_kggk 越近，ggkgg_kggk 对 vjv_jvj 的影响权重 ωjk\omega_{jk}ωjk 越大。
聚类中心 vjv_jvj 的更新：
- 对于 IKG-FCM (区间中心)：
  vjL=∑i=1nuijmηixi+ζ∑k=1KωjkigkL∑i=1nuijmηi+ζ∑k=1Kωjk v_j^{L} = \frac{\sum_{i=1}^{n} u_{ij}^m \eta_i x_i + \zeta \sum_{k=1}^{K} \omega_{jk} ig_{k}^{L}}{\sum_{i=1}^{n} u_{ij}^m \eta_i + \zeta \sum_{k=1}^{K} \omega_{jk}} vjL=∑i=1nuijmηi+ζ∑k=1Kωjk∑i=1nuijmηixi+ζ∑k=1KωjkigkL
  vjR=∑i=1nuijmηixi+ζ∑k=1KωjkigkR∑i=1nuijmηi+ζ∑k=1Kωjk v_j^{R} = \frac{\sum_{i=1}^{n} u_{ij}^m \eta_i x_i + \zeta \sum_{k=1}^{K} \omega_{jk} ig_{k}^{R}}{\sum_{i=1}^{n} u_{ij}^m \eta_i + \zeta \sum_{k=1}^{K} \omega_{jk}} vjR=∑i=1nuijmηi+ζ∑k=1Kωjk∑i=1nuijmηixi+ζ∑k=1KωjkigkR
  
  这是加权平均的形式，分子结合了数据点和知识粒的左/右边界，分母是相应的权重和。
- 对于 TKG-FCM (三角中心)：
  
  更新公式更复杂，涉及 vjL,vjM,vjRv_j^{L}, v_j^{M}, v_j^{R}vjL,vjM,vjR 之间的相互依赖，需要迭代求解或使用特定的更新方程（论文中给出了方程 (30)-(33)）。核心思想同样是结合数据点和知识粒（三角形式）的信息来更新中心的左、中、右值。

5. 主要贡献点

提出知识粒化概念并应用于聚类： 首次将知识从精确数值扩展到区间和三角模糊数形式的"知识粒"，更真实地反映了知识的不确定性。
设计自动知识提取方法 (KEG)： 基于自然邻居和三西格玛准则，提出了一种无需人工干预的自动高密度点识别和知识粒化方法，降低了知识获取成本。
构建灵活的知识引导聚类框架： 提出的KG-FCM框架通过在目标函数中引入知识引导项，而非直接替换中心，避免了知识的过度干预，提高了算法的灵活性和鲁棒性。
提升聚类性能，尤其在不平衡数据上： 实验表明，所提出的IKG-FCM和TKG-FCM算法在合成和真实数据集上，尤其是在类别不平衡的数据集上，相比现有先进算法取得了更好的聚类效果和更低的时间成本。
理论分析： 对算法的收敛性进行了理论证明。

6. 算法实现过程 (以 Algorithm 3 为主)

算法实现分为两个主要阶段：知识提取与粒化，以及基于知识的聚类迭代优化。

阶段一：知识提取与粒化 (KEG)
1. 输入： 数据集 X={xi}i=1nX = \{x_i\}_{i=1}^{n}X={xi}i=1n，聚类数 ccc（用于KEG内部计算半径 rrr），知识粒类型 GTGTGT (1表示区间，其他表示三角)。
2. 执行KEG算法 (Algorithm 2)：
  - 计算自然邻居： 使用 Algorithm 1 (NaN) 计算每个数据点的自然邻居集合 NNθ(xi)NN_{\theta}(x_i)NNθ(xi) 及其数量 nb(i)nb(i)nb(i)。
  - 计算密度 ρi\rho_iρi： 根据公式 (7), (8), (9) 结合自然邻居密度和基于核距离的密度计算每个点的局部密度 ρi\rho_iρi (κ=0.5\kappa=0.5κ=0.5)。
  - 计算相对距离 δi\delta_iδi： 根据公式 (10) 计算每个点到更高密度点的最小距离 δi\delta_iδi。对于低密度点 (ρi≤ρˉ−σdens\rho_i \leq \bar{\rho} - \sigma_{dens}ρi≤ρˉ−σdens)，其 δi\delta_iδi 被设为其平均值 δˉ\bar{\delta}δˉ (步骤 10-14)。
  - 排序与异常检测： 将 δ\deltaδ 值升序排列得到 δ′\delta'δ′ 和对应的数据点顺序 X′X'X′ (步骤 15)。计算相邻 δ′\delta'δ′ 差值 ϕi=δi+1′−δi′\phi_i = \delta'_{i+1} - \delta'_iϕi=δi+1′−δi′ (步骤 16-18)。使用三西格玛准则检测 ϕ\phiϕ 的异常值 (步骤 19-25)。
  - 确定高密度点： 找到第一个显著的 ϕ\phiϕ 异常值，其后的所有点被视为高密度点候选集 GGG (步骤 21)。
  - 知识粒化： 根据 GTGTGT 类型，使用公式 (17) (区间) 或 (19) (三角) 将高密度点集 GGG 及其自然邻居聚合成知识粒集 IGIGIG 或 TGTGTG。
3. 输出： 高密度点集 GGG 和对应的知识粒集 IGIGIG 或 TGTGTG。
阶段二：基于知识的聚类迭代优化 (KG-FCM)
1. 初始化： 随机从 XXX 中选择 ccc 个数据点作为初始聚类中心 V(0)V^{(0)}V(0)。
2. 计算数据权重： 根据公式 (23) 计算所有数据点的权重 ηi\eta_iηi。
3. 迭代开始 (Repeat until convergence or max iterations T)：
  - 更新隶属度 U(t)U^{(t)}U(t)： 使用公式 (26) 计算隶属度矩阵。
  - 更新知识影响权重 ωjk\omega_{jk}ωjk： 使用公式 (27) 计算 ωjk\omega_{jk}ωjk。
  - 更新聚类中心 V(t+1)V^{(t+1)}V(t+1)：
    - 如果是 IKG-FCM (GT=1GT=1GT=1)：使用公式 (28), (29) 更新区间型聚类中心。
    - 如果是 TKG-FCM (GT≠1GT \neq 1GT=1)：使用公式 (30)-(33) 更新三角型聚类中心。
  - 更新迭代次数： t=t+1t = t + 1t=t+1。
  - 检查收敛性： 判断目标函数变化 ∣J(t)−J(t−1)∣|J^{(t)} - J^{(t-1)}|∣J(t)−J(t−1)∣ 是否小于阈值 ϵ\epsilonϵ 或是否达到最大迭代次数 TTT。
4. 输出： 最终的聚类中心矩阵 V(t)V^{(t)}V(t) 和隶属度矩阵 U(t−1)U^{(t-1)}U(t−1)。

总结： 这篇论文通过引入"知识粒"概念和自动提取方法KEG，提出了一种新颖且有效的知识引导模糊聚类框架KG-FCM及其两种实现IKG-FCM和TKG-FCM。该方法在理论上更具鲁棒性，在实验上展现了优异的性能，特别是在处理不平衡数据时，同时保持了良好的计算效率。