2. 核心思想
这篇论文的核心思想是将知识引导机制引入模糊聚类算法,并特别关注知识本身的不确定性。传统知识引导聚类(如V-FCM)使用精确的数值型知识(视点)。本文认为现实中的知识往往是不确定的、模糊的(例如,一个高密度区域无法用一个精确点表示)。因此,作者提出:
- 知识粒化 (Knowledge Granulation): 将精确的数值型知识扩展为知识粒 (Knowledge Granules),使用区间数 (Interval Numbers) 或三角模糊数 (Triangular Fuzzy Numbers) 来表示,以捕捉知识的不确定性。
- 自动知识提取 (Automatic Knowledge Extraction): 设计了一种名为KEG (Knowledge Extraction and Granulation) 的方法,自动地从待聚类数据集中识别出高密度区域,并将其形式化为知识粒。这解决了手动指定知识成本高的问题。
- 知识引导的模糊聚类框架: 提出一个基于知识粒的模糊聚类模型框架。该框架利用KEG提取的知识粒来引导聚类过程,但不直接强制替换聚类中心(避免了V-FCM/IV-FCM/DVPFCM中知识过度影响的问题),而是通过在目标函数中加入一个知识引导项,让聚类中心在迭代优化过程中受到知识粒的吸引,从而更灵活、更稳健地发现数据潜在结构。
3. 目标函数
论文提出了两种基于不同类型知识粒的算法变体:IKG-FCM(使用区间知识粒)和TKG-FCM(使用三角知识粒)。它们共享相似的目标函数结构,记为KG-FCM的目标函数:
JKG−FCM=∑i=1n∑j=1cuijmηidKG2(vj,xi)+ζ(∑j=1c∑k=1KωjkdKG2(vj,ggk)+∑j=1cσj∑k=1K(ωjklnωjk−ωjk)) J_{KG-FCM} = \sum_{i=1}^{n} \sum_{j=1}^{c} u_{ij}^m \eta_i d_{KG}^2(v_j, x_i) + \zeta \left( \sum_{j=1}^{c} \sum_{k=1}^{K} \omega_{jk} d_{KG}^2(v_j, gg_k) + \sum_{j=1}^{c} \sigma_j \sum_{k=1}^{K} (\omega_{jk} \ln \omega_{jk} - \omega_{jk}) \right) JKG−FCM=i=1∑nj=1∑cuijmηidKG2(vj,xi)+ζ(j=1∑ck=1∑KωjkdKG2(vj,ggk)+j=1∑cσjk=1∑K(ωjklnωjk−ωjk))
约束条件: ∑j=1cuij=1\sum_{j=1}^{c} u_{ij} = 1∑j=1cuij=1, 0≤uij≤10 \leq u_{ij} \leq 10≤uij≤1, 0≤ηi≤10 \leq \eta_i \leq 10≤ηi≤1, 0≤ωjk≤10 \leq \omega_{jk} \leq 10≤ωjk≤1
符号解释:
- nnn: 数据点总数。
- ccc: 聚类数。
- uiju_{ij}uij: 数据点 xix_ixi 属于第 jjj 个聚类的隶属度。
- mmm: 模糊指数 (fuzziness index)。
- ηi\eta_iηi: 与数据点 xix_ixi 相关的权重,用于调整其在第一项中的重要性。
- dKG2(vj,xi)d_{KG}^2(v_j, x_i)dKG2(vj,xi): 第 jjj 个聚类中心 vjv_jvj 与数据点 xix_ixi 之间的距离平方(根据聚类中心和数据点的类型,具体形式会变化)。
- ζ\zetaζ: 平衡数据项和知识引导项影响的非负参数。
- KKK: 提取的知识粒总数。
- ggkgg_kggk: 第 kkk 个知识粒(对于IKG-FCM是 igkig_kigk,对于TKG-FCM是 tgktg_ktgk)。
- ωjk\omega_{jk}ωjk: 第 kkk 个知识粒对第 jjj 个聚类中心的影响权重。
- σj\sigma_jσj: 与第 jjj 个聚类中心相关的参数,定义为 σj=dist(vj,Gˉ)2\sigma_j = dist(v_j, \bar{G})^2σj=dist(vj,Gˉ)2,其中 Gˉ=1K∑k=1Kgk\bar{G} = \frac{1}{K} \sum_{k=1}^{K} g_kGˉ=K1∑k=1Kgk 是所有原始高密度点的均值。
- 第二项中的最后一部分是一个熵正则化项,防止 ωjk\omega_{jk}ωjk 取到平凡解(如0)。
距离度量:
- 对于区间知识粒 (IKG-FCM): dKGd_{KG}dKG 是 dIGd_{IG}dIG,ggkgg_kggk 是 igk=[igkL,igkR]ig_k=[ig_{k}^{L}, ig_{k}^{R}]igk=[igkL,igkR]。距离定义为:
dIG2(vj,igk)=∑t=1d(vjtL−igktL)2+(vjtR−igktR)22d_{IG}^2(v_j, ig_k) = \sum_{t=1}^{d} \frac{(v_{jt}^{L} - ig_{kt}^{L})^2 + (v_{jt}^{R} - ig_{kt}^{R})^2}{2}dIG2(vj,igk)=t=1∑d2(vjtL−igktL)2+(vjtR−igktR)2
(其中 vj=[vjL,vjR]v_j=[v_{j}^{L}, v_{j}^{R}]vj=[vjL,vjR]) - 对于三角知识粒 (TKG-FCM): dKGd_{KG}dKG 是 dTGd_{TG}dTG,ggkgg_kggk 是 tgk=(tgkL,tgkM,tgkR)tg_k=(tg_{k}^{L}, tg_{k}^{M}, tg_{k}^{R})tgk=(tgkL,tgkM,tgkR)。距离使用文献[39]中的积分度量:
dTG2(vj,tgk)=∑t=1d(α6(vjtL−tgktL)2+(1−53α)(vjtM−tgktM)2+α6(vjtR−tgktR)2+α6(vjtL−tgktL+vjtM−tgktM)2+α6(vjtR−tgktR+vjtM−tgktM)2)d_{TG}^2(v_j, tg_k) = \sum_{t=1}^{d} \left( \frac{\alpha}{6}(v_{jt}^{L} - tg_{kt}^{L})^2 + (1 - \frac{5}{3}\alpha)(v_{jt}^{M} - tg_{kt}^{M})^2 + \frac{\alpha}{6}(v_{jt}^{R} - tg_{kt}^{R})^2 + \frac{\alpha}{6}(v_{jt}^{L} - tg_{kt}^{L} + v_{jt}^{M} - tg_{kt}^{M})^2 + \frac{\alpha}{6}(v_{jt}^{R} - tg_{kt}^{R} + v_{jt}^{M} - tg_{kt}^{M})^2 \right)dTG2(vj,tgk)=t=1∑d(6α(vjtL−tgktL)2+(1−35α)(vjtM−tgktM)2+6α(vjtR−tgktR)2+6α(vjtL−tgktL+vjtM−tgktM)2+6α(vjtR−tgktR+vjtM−tgktM)2)
(其中 0<α<0.50 < \alpha < 0.50<α<0.5,论文中取 α=0.25\alpha=0.25α=0.25,vj=(vjL,vjM,vjR)v_j=(v_{j}^{L}, v_{j}^{M}, v_{j}^{R})vj=(vjL,vjM,vjR))
数据点权重 ηi\eta_iηi 的计算:
ηi=1−mink=1,...,K(dist(xi,gk))maxj=1,...,n(mink=1,...,K(dist(xj,gk))) \eta_i = 1 - \frac{\min_{k=1,\ldots,K}(dist(x_i, g_k))}{\max_{j=1,\ldots,n}(\min_{k=1,\ldots,K}(dist(x_j, g_k)))} ηi=1−maxj=1,...,n(mink=1,...,K(dist(xj,gk)))mink=1,...,K(dist(xi,gk))
这表示距离知识点越近的数据点,在聚类中拥有更高的权重。
4. 目标函数详细的优化过程
优化过程采用交替优化策略,通过拉格朗日乘数法推导出更新规则:
-
隶属度 uiju_{ij}uij 的更新:
uij=dKG(vj,xi)−2m−1∑j′=1cdKG(vj′,xi)−2m−1u_{ij} = \frac{d_{KG}(v_j, x_i)^{-\frac{2}{m-1}}}{\sum_{j'=1}^{c} d_{KG}(v_{j'}, x_i)^{-\frac{2}{m-1}}}uij=∑j′=1cdKG(vj′,xi)−m−12dKG(vj,xi)−m−12这与标准FCM的更新规则形式一致,但距离度量 dKGd_{KG}dKG 可能不同。
-
知识影响权重 ωjk\omega_{jk}ωjk 的更新:
ωjk=exp(−dKG(vj,ggk)22σj)\omega_{jk} = \exp\left(-\frac{d_{KG}(v_j, gg_k)^2}{2 \sigma_j} \right)ωjk=exp(−2σjdKG(vj,ggk)2)这表明聚类中心 vjv_jvj 距离知识粒 ggkgg_kggk 越近,ggkgg_kggk 对 vjv_jvj 的影响权重 ωjk\omega_{jk}ωjk 越大。
-
聚类中心 vjv_jvj 的更新:
-
对于 IKG-FCM (区间中心):
vjL=∑i=1nuijmηixi+ζ∑k=1KωjkigkL∑i=1nuijmηi+ζ∑k=1Kωjk v_j^{L} = \frac{\sum_{i=1}^{n} u_{ij}^m \eta_i x_i + \zeta \sum_{k=1}^{K} \omega_{jk} ig_{k}^{L}}{\sum_{i=1}^{n} u_{ij}^m \eta_i + \zeta \sum_{k=1}^{K} \omega_{jk}} vjL=∑i=1nuijmηi+ζ∑k=1Kωjk∑i=1nuijmηixi+ζ∑k=1KωjkigkL
vjR=∑i=1nuijmηixi+ζ∑k=1KωjkigkR∑i=1nuijmηi+ζ∑k=1Kωjk v_j^{R} = \frac{\sum_{i=1}^{n} u_{ij}^m \eta_i x_i + \zeta \sum_{k=1}^{K} \omega_{jk} ig_{k}^{R}}{\sum_{i=1}^{n} u_{ij}^m \eta_i + \zeta \sum_{k=1}^{K} \omega_{jk}} vjR=∑i=1nuijmηi+ζ∑k=1Kωjk∑i=1nuijmηixi+ζ∑k=1KωjkigkR这是加权平均的形式,分子结合了数据点和知识粒的左/右边界,分母是相应的权重和。
-
对于 TKG-FCM (三角中心):
更新公式更复杂,涉及 vjL,vjM,vjRv_j^{L}, v_j^{M}, v_j^{R}vjL,vjM,vjR 之间的相互依赖,需要迭代求解或使用特定的更新方程(论文中给出了方程 (30)-(33))。核心思想同样是结合数据点和知识粒(三角形式)的信息来更新中心的左、中、右值。
-
5. 主要贡献点
- 提出知识粒化概念并应用于聚类: 首次将知识从精确数值扩展到区间和三角模糊数形式的"知识粒",更真实地反映了知识的不确定性。
- 设计自动知识提取方法 (KEG): 基于自然邻居和三西格玛准则,提出了一种无需人工干预的自动高密度点识别和知识粒化方法,降低了知识获取成本。
- 构建灵活的知识引导聚类框架: 提出的KG-FCM框架通过在目标函数中引入知识引导项,而非直接替换中心,避免了知识的过度干预,提高了算法的灵活性和鲁棒性。
- 提升聚类性能,尤其在不平衡数据上: 实验表明,所提出的IKG-FCM和TKG-FCM算法在合成和真实数据集上,尤其是在类别不平衡的数据集上,相比现有先进算法取得了更好的聚类效果和更低的时间成本。
- 理论分析: 对算法的收敛性进行了理论证明。
6. 算法实现过程 (以 Algorithm 3 为主)
算法实现分为两个主要阶段:知识提取与粒化,以及基于知识的聚类迭代优化。
-
阶段一:知识提取与粒化 (KEG)
- 输入: 数据集 X={xi}i=1nX = \{x_i\}_{i=1}^{n}X={xi}i=1n,聚类数 ccc(用于KEG内部计算半径 rrr),知识粒类型 GTGTGT (1表示区间,其他表示三角)。
- 执行KEG算法 (Algorithm 2):
- 计算自然邻居: 使用 Algorithm 1 (NaN) 计算每个数据点的自然邻居集合 NNθ(xi)NN_{\theta}(x_i)NNθ(xi) 及其数量 nb(i)nb(i)nb(i)。
- 计算密度 ρi\rho_iρi: 根据公式 (7), (8), (9) 结合自然邻居密度和基于核距离的密度计算每个点的局部密度 ρi\rho_iρi (κ=0.5\kappa=0.5κ=0.5)。
- 计算相对距离 δi\delta_iδi: 根据公式 (10) 计算每个点到更高密度点的最小距离 δi\delta_iδi。对于低密度点 (ρi≤ρˉ−σdens\rho_i \leq \bar{\rho} - \sigma_{dens}ρi≤ρˉ−σdens),其 δi\delta_iδi 被设为其平均值 δˉ\bar{\delta}δˉ (步骤 10-14)。
- 排序与异常检测: 将 δ\deltaδ 值升序排列得到 δ′\delta'δ′ 和对应的数据点顺序 X′X'X′ (步骤 15)。计算相邻 δ′\delta'δ′ 差值 ϕi=δi+1′−δi′\phi_i = \delta'_{i+1} - \delta'_iϕi=δi+1′−δi′ (步骤 16-18)。使用三西格玛准则检测 ϕ\phiϕ 的异常值 (步骤 19-25)。
- 确定高密度点: 找到第一个显著的 ϕ\phiϕ 异常值,其后的所有点被视为高密度点候选集 GGG (步骤 21)。
- 知识粒化: 根据 GTGTGT 类型,使用公式 (17) (区间) 或 (19) (三角) 将高密度点集 GGG 及其自然邻居聚合成知识粒集 IGIGIG 或 TGTGTG。
- 输出: 高密度点集 GGG 和对应的知识粒集 IGIGIG 或 TGTGTG。
-
阶段二:基于知识的聚类迭代优化 (KG-FCM)
- 初始化: 随机从 XXX 中选择 ccc 个数据点作为初始聚类中心 V(0)V^{(0)}V(0)。
- 计算数据权重: 根据公式 (23) 计算所有数据点的权重 ηi\eta_iηi。
- 迭代开始 (Repeat until convergence or max iterations T):
- 更新隶属度 U(t)U^{(t)}U(t): 使用公式 (26) 计算隶属度矩阵。
- 更新知识影响权重 ωjk\omega_{jk}ωjk: 使用公式 (27) 计算 ωjk\omega_{jk}ωjk。
- 更新聚类中心 V(t+1)V^{(t+1)}V(t+1):
- 如果是 IKG-FCM (GT=1GT=1GT=1):使用公式 (28), (29) 更新区间型聚类中心。
- 如果是 TKG-FCM (GT≠1GT \neq 1GT=1):使用公式 (30)-(33) 更新三角型聚类中心。
- 更新迭代次数: t=t+1t = t + 1t=t+1。
- 检查收敛性: 判断目标函数变化 ∣J(t)−J(t−1)∣|J^{(t)} - J^{(t-1)}|∣J(t)−J(t−1)∣ 是否小于阈值 ϵ\epsilonϵ 或是否达到最大迭代次数 TTT。
- 输出: 最终的聚类中心矩阵 V(t)V^{(t)}V(t) 和隶属度矩阵 U(t−1)U^{(t-1)}U(t−1)。
总结: 这篇论文通过引入"知识粒"概念和自动提取方法KEG,提出了一种新颖且有效的知识引导模糊聚类框架KG-FCM及其两种实现IKG-FCM和TKG-FCM。该方法在理论上更具鲁棒性,在实验上展现了优异的性能,特别是在处理不平衡数据时,同时保持了良好的计算效率。