DBSCAN(基于密度的空间聚类应用与噪声)算法

在 DBSCAN(基于密度的空间聚类应用与噪声)算法中,eps (Epsilon) 和 min_samples (MinPts) 是两个最核心的参数,它们共同定义了"什么是密度"以及"什么是簇"。

理解这两个参数,我们可以想象你在茫茫夜空中观察星星:

1. eps (Epsilon) - 邻域半径 (你的"视场范围")

eps 定义了一个点周围的"势力范围"或"邻域大小"。你可以把它想象成你手中望远镜的视场半径

  • 具体含义: 对于数据集中的任意一个点,以它为圆心,eps 为半径画一个圆(在高维空间中是一个超球体)。这个圆内包含的所有其他点,都被认为是该点的"邻居"。

  • 参数影响:

    • eps 设得太小: 就像你的望远镜视野太窄,即使星团很密集,你也只能看到零星的几颗星星。这会导致原本属于同一个大簇的数据被切碎成很多小簇,或者大量的数据点因为找不到足够的邻居而被错误地标记为"噪声(Noise)"。

    • eps 设得太大: 就像你的望远镜视野极其开阔,只要星星不是离得特别远,都能被框进去。这会导致原本分离的多个独立星团(簇)被连成一片,最终可能所有的数据都被归为了同一个巨大的簇,失去了聚类的意义。

2. min_samples (MinPts) - 最小样本数 (成为"核心"的门槛)

min_samples 定义了一个点要成为"核心点"的最低门槛。你可以把它想象成你认定一个区域为"星团"所需要的最小星星数量

  • 具体含义: 如果一个点的 eps 邻域内(包括该点自身)包含的点数大于或等于 min_samples,那么这个点就被提升为核心点 (Core Point)。核心点是构建簇的基石。

  • 参数影响:

    • min_samples 设得太小 (比如 1 或 2): 只要两三个点凑在一起,就能自封为一个簇。这会让算法对噪声非常敏感,任何微小的数据波动都会产生大量的微型簇。

    • min_samples 设得太大: 要成为核心点的条件变得极其苛刻。只有那些数据极度密集的地方才能形成簇,而密度稍微低一点(但原本也是有意义的)的簇会被直接忽略,被视为噪声。通常,当数据集比较大或者含有较多噪声时,需要调大这个值以获得更稳定、更紧凑的聚类结果。

总结:它们如何共同作用?

DBSCAN 的运作逻辑就是:

  1. 先看一个点周围 eps 范围内有没有达到 min_samples 个点。如果有,这个点就是"核心点"。

  2. 从一个"核心点"出发,把它的所有邻居都拉进同一个簇里。

  3. 如果被拉进来的邻居也是"核心点",那就继续扩大这个簇的边界(这就是所谓的密度可达,Density-Reachable)。

  4. 如果被拉进来的邻居不是"核心点"(也就是说它在别人的圈子里,但自己的圈子里点不够多),那就把它当作"边界点 (Border Point)",簇的扩张在这里停止。

  5. 那些既不是核心点,也不在任何核心点圈子里的孤单点,就是"噪声 (Noise)"。

为了帮助你更直观地理解这两个参数是如何塑造聚类结果的,我为你制作了一个交互式 DBSCAN 模拟器。你可以通过滑动条改变 epsmin_samples,观察数据点是如何在"核心点"、"边界点"和"噪声"之间转换,以及簇是如何合并或分裂的。

DBSCAN 是这样工作的:

  1. 算法拿起一个实验数据点,以 eps 为半径画个圈。

  2. 如果圈里的实验点数量 \\ge min_samples (这里是 5),这个点就成为"核心点"。

  3. 算法将这个核心点及其圈里的所有邻居划为一个"簇"。

  4. 算法接着去检查这些邻居,如果邻居也是"核心点",就继续把它们的圈子并进来,从而不断扩大这个"簇"的边界。

  5. 直到圈不到新的"核心点"为止,这个"簇"就成型了。

  6. 那些既不是核心点,也没有落在任何核心点圈子里的孤僻实验,就被标记为噪声 (Is_Noise = True)。

策略

采用的"双层聚类(Dual-layer Clustering)"是一种极其专业且优雅的数据科学策略,尤其在结合主动学习(Active Learning)或贝叶斯优化(Bayesian Optimization)进行化学空间探索时,堪称教科书级别的设计。

为了让你彻底吃透这个策略的精髓,我们把这"两层"拆开来看,并探究它们为什么要这样组合。

第一层:联合聚类 (Joint Cluster) ------ 构建"大局观"

1. 运行环境 :二维 UMAP 降维空间。 2. 参与数据 :所有的历史实验 + C16 候选空间。 3. 核心目标 :提供全局上下文(Context),用于回答"我们在哪?"

原理解析: 当你利用模型生成了几百个候选的化学条件时,你最想知道的第一件事是:"这些新条件,离我之前做过的那些高产率实验近不近?"

UMAP 的强项在于保留数据的拓扑结构(Topology),即把本来有相似关联的东西放在一起。通过把历史数据和候选数据一起"扔"进 UMAP 降维并进行 DBSCAN 聚类,你就像是绘制了一张"化学世界地图":

  • 如果候选点(紫 X)和高产点(深绿圆)被划到了同一个大簇(Joint Cluster)里,说明你在进行"利用(Exploitation)"------你在已知的高产区周围微调。

  • 如果候选点像图里那样,自己孤立成一个巨大的星团,说明你在进行"探索(Exploration)"------你进入了一片前人(历史数据)未曾涉足的处女地。

比喻:这就好比用卫星地图看地球。你看得见新建的开发区(候选点)离老牌繁华市中心(高产点)有多远,中间有没有路连着。

第二层:候选亚群聚类 (Candidate Subcluster) ------ 精准的"微观刻画"

1. 运行环境 :原始的、高维的特征矩阵(Features)。 2. 参与数据仅仅 只有 C16 候选空间(排除了历史数据)。 3. 核心目标 :提供物理多样性(Diversity),用于回答"这批候选内部有什么区别?"

原理解析: 为什么不直接用第一层的结果去挑实验,非要搞第二层?这里面藏着两个极度硬核的数据科学常识:

  • 痛点 A:UMAP 的视觉欺骗。 UMAP 为了把高维空间强行压扁到 2D 给人看,会严重扭曲真实的物理距离。在 UMAP 图上看着紧紧贴在一起的两个紫 X,可能在真实的高维化学空间中,一个温度是 35℃,另一个是 120℃。如果你根据 2D 聚类去挑条件,很可能会"踩坑"。

  • 痛点 B:DBSCAN 的"嫌贫爱富"(密度干扰)。 DBSCAN 是基于密度的。历史实验数据通常在某些特定条件下扎堆(密度极高)。如果把历史数据和候选数据放在一起做高维聚类,历史数据的"高密度"会直接拉高算法对"簇"的判定门槛,导致原本内部有细微差别的候选数据,要么被强行挤成一个大面团,要么被全部判定为噪声(Noise)。

解决方案 : 切断历史数据的干扰,拿最纯粹的候选点,在最真实的高维空间(比如 15 维的温度、当量、配体浓度矩阵)里再跑一次 DBSCAN。 这样切出来的"亚群(Subcluster)",代表的是真实物理/化学条件上的差异

比喻:这就像是你走进了刚才那个新建的开发区,放下了卫星地图,拿出了游标卡尺。你不关心这里离市中心有多远了,你只关心 1 号楼和 2 号楼的户型有什么本质区别。

为什么 1 + 1 > 2?(策略的终极意义)

双层聚类完美地服务于你的终极目的:从成百上千的候选空间中,科学地挑选出下一轮要做的 10 个实验。

这套策略为你提供了两个维度的"武器":

  1. 宏观防暴毙(Layer 1):通过观察联合聚类图,如果你发现候选点附近全是被标记为"死胡同(Noise)"的低产点,你可以直接在宏观上放弃这片区域。

  2. 微观保多样(Layer 2) :当你决定探索 C16 候选区时,你会发现 Layer 2 将这个区域划分为比如 5 个 Subcluster。在挑选那 10 个实验时,你就不应该从 Subcluster 1 里挑 10 个,而是应该在 5 个 Subcluster 里各挑 2 个

结论: 通过第一层"看方向",通过第二层"挑样本"。这种结合了低维可视化拓扑与高维几何距离的架构,能够最大程度避免贝叶斯优化陷入"多样性崩塌",确保下一轮实验既有宏观依据,又有微观的化学代表性。

相关推荐
垂钓的小鱼11 小时前
TRIZ理论是什么?萃智引擎如何将它变为工程师的AI创新助手
人工智能·microsoft
诸葛务农1 小时前
涡喷式发烟机施放粉末状烟剂成烟面积的计算:烟剂材料特性的影响
人工智能
云烟成雨TD2 小时前
Agent Scope Java 2.x 系列【10】技能(Skill)
java·人工智能·agent
GDAL2 小时前
书签栏的 AI 转型:用 bge-small-zh-v1.5 重塑书签管理
人工智能·书签栏
青山如墨雨如画2 小时前
【北邮-无线通信中的人工智能】物理层技术中AI的应用实践:基于KNN的调制识别(1)理论基础
人工智能·python·机器学习·matlab·jupyter
xhtdj2 小时前
智源大会圆桌大模型没有终局具身智能可能是中国的 AlphaGo 时刻
人工智能·clickhouse·安全·动态规划
HavenlonLabs2 小时前
区块链解决信任分布,AI 需要解决能力控制
人工智能·安全·区块链
良枫2 小时前
01 “自进化 Agent”是什么
人工智能
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-06-12
人工智能·经验分享·深度学习·神经网络·产品运营