3D点云数据处理中的聚类算法总结

1.欧式聚类:

基于点的空间距离(欧几里得距离)来分割点云,将距离较近的点归为同一簇。

欧式聚类需要的参数:邻域半径R,簇的最小点阈值minPts,最大点数阈值maxPts。

实现效率:
O(n * log n)
实现步骤:

(1)从未访问点开始探索:对于点云中的每一个未访问的点,进行以下步骤:

(2)区域查询:使用空间索引(如KD树)查找在以当前点为中心、半径为R的邻域内的所有点。如果邻域内的点数量大于或等于最小点阈值minPts,则将该点标记为一个新的聚类中心。

(3)扩展聚类:从这个聚类中心出发,继续探索邻域内的点,如果发现这些邻域内的点也是聚类的一部分,继续进行区域查询,将这些点也加入到聚类中,并对新发现的点进行同样的操作。如果邻域内的点不够,意味着这个聚类已经识别完毕。如果聚类簇的点数大于最大点阈值maxPts,进行丢弃。

(4)标记与输出:将识别到的聚类标记为不同的ID,直到点云中的所有点都被访问。输出结果为每个点对应的聚类标签。

2.条件欧式聚类:

条件欧式聚类在传统欧式聚类(仅依赖距离阈值)的基础上,增加了条件函数,用于判断两个邻近点是否属于同一簇。条件函数可以由用户自定义,结合点的空间距离和其他属性(如法向量角度、颜色差异等),从而实现更灵活和精确的分割。

实现效率:
O(n * log n)

实现步骤:

略(在欧式聚类的基础上增加额外条件限制)

3.区域生长聚类:

区域生长聚类是一种基于种子点的点云聚类方法,尤其是在需要利用点云几何信息(如表面连续性)的场景中。

区域生长聚类需要的参数:k个近邻或邻域半径r,角度阈值θth,曲率阈值Cth。

实现效率:
O(n * log n)
实现步骤:

(1)初始化,从点云中选择一个种子点,PCL默认按照曲率大小排序,选择曲率最小的作为第一个种子点(曲率小的点通常位于平滑区域);并创建空的簇集合以及种子队列。

(2)生长过程,

·邻域搜索,找到当前种子点的k近邻,或指定半径内的邻近点。

·条件检查,计算当前种子点法向量Ns与邻近点Ni的夹角,若arccos(Ns·Ni)<θth(角度阈值)且邻近点的曲率<Cth,则认为邻近点与种子点属于同一个簇。

·簇扩展,将满足角度条件的邻近点加入当前簇,并将其添加到种子队列。

·种子更新,从队列中移除当前种子点,处理下一个种子点,直到队列为空。

(3)新簇生成,当前簇生长完成后,从剩余未分配的点中选择新的种子点(仍选择曲率小的点),重复生长过程。

(4)终止条件,当所有点都被分配到簇或标记为不可生长(孤立点)时,算法结束。输出多个簇的集合。

4.Min-Cut聚类:

Min-Cut聚类是一种基于图割(Graph Cut)的点云分割方法,主要用于二值分割,即将点云分为前景和背景两个部分。这种方法适用于从点云中提取特定目标(如物体)的情况。

将点云分割为两类:

·前景点: 属于目标物体的点。

·背景点: 不属于目标物体的点。

实现效率:
O(n²) 或更高
实现步骤:

(1)构建图结构,将点云中每个点视为图的一个顶点。额外添加两个虚拟顶点:源点和汇点。源点代表前景点,汇点代表背景。

边的连接方式:每个顶点与源点和汇点相连(分别表示前景和背景的归属可能性);每个顶点与它的k近邻点相连。

(2)分配权重,图中的每条边都被赋予权重,表示割段这条边的代价,权重分为三类:

前景权重:点与源点之间的边权重,由用户指定一个常数,反映点属于前景的先验倾向。

背景权重:点与汇点之间的边权重,根据点到目标中心的距离计算,公式为:

其中d为点到目标中心的水平距离,σ是用户设置的高斯核函数,控制距离衰减速度。当点超过用户定义的半径时,权重趋近于0,表示更可能是背景。

平滑权重:点与近邻点之间的边权重,基于两点的欧式距离dij:

距离越远,权重越小,割断的可能性越大。

(3)最小割计算,使用最大流-最小割算法计算图的最小割,最小割是将图分为两个子集(源点侧和汇点侧)的边集合,其总权重之和最小。源点侧的点被标记为前景,汇点侧的点被标记为背景。

(4)输出结果,索引为0的为背景点,索引为1的为前景点。

上述四种算法在点云的PCL处理库(c++或python)中有比较成熟的实现,可直接调用。下面的几种算法在Python中也有成熟的实现。

5.DBSCAN:

DBSCAN 是一种经典的密度聚类算法,它的核心思想是通过点的密度连通性来识别簇,能够发现任意形状的簇并有效处理噪声。

DBSCAN 需要两个参数:邻域半径ε和形成密集区域所需的最小点数minPts。

点类型定义:

核心点:某个点的ε邻域内包含至少minPts个点(包括自身)。

边界点:非核心点,但落在某个核心点的邻域内。

噪声点:既不是核心点,也不是边界点的点。

密度传播关系定义:

直接密度可达:若点q在核心点p的ε邻域内,则q从p直接密度可达。

密度可达:若存在点序列 p1,p2,...,pn,其中p1=p,pn=q,且pi+1从pi直接密度可达,则q从p密度可达。

密度连通:若存在核心点o,使得点p和q都从o密度可达,则p和q密度连通。密度连通的点形成一个簇。

实现效率:

时间复杂度O(nlogn)

DBSCAN 的实现是一个迭代过程,通过标记点并扩展簇来完成聚类。
实现步骤

(1)输入数据集,包含n个点,设置邻域半径ε和定义最小点数minPts;

(2)初始化,将所以点标记为"未访问",创建空的簇集合和噪声集合;

(3)主循环,随机选择一个"未访问"点p,将p标记为"已访问",计算点p的ε邻域内的点数Nε§,包括p点自身。

|Nε(p)| < minPts

将p标记为"噪声",暂不分配簇;

继续下一轮循环。

|Nε(p)| ≥ minPts

p是核心点,创建新簇C;

将p加入C。

(4)簇扩展,

种子集合:将Nε§中的所有未访问点加入种子集合S。

迭代扩展:

从S中取出一个点q。

若q未访问:

标记q为"已访问";

查询q的邻域Nε(q);

|Nε(q)| ≥ minPts(q是核心点):

将Nε(q)中的未访问点加入S。

将q加入当前簇C。

重复直到S为空。

(5)重复,返回步骤(3),选择下一个未访问点,直到所有点都被访问。

(6)输出,簇集合:每个簇包含密度连通的核心点和边界点;噪声集合:未分配到任何簇的点。

如图所示,设置minPts = 4。点 A 和其他红点是核心点,因为在ε邻域内,这些点周围的区域至少包含 4 个点 (包括点本身)。因为它们彼此之间都可以访问,形成了一个单独的集群。点 B 和点 C 不是核心点,但是可以从 A (通过其他核心点) 到达,因此也属于集群。点 N 是一个噪声点,它既不是核心点,也不是直接可达的。

6.层次聚类:

层次聚类分为两种:

凝聚聚类:从每个数据点开始,每个点是一个簇,逐步合并最近的簇,直到所有点在一个簇中。

分裂聚类:从所有点在一个簇开始,逐步分割,直到每个点为单独簇。分裂聚类较少用,但适合特定场景。

链接准则:

合并时使用链接准则决定簇间距离,使用不同准则可能导致不同的聚类结果:

单链接:两个簇间的最小点间距离。

完全链接:两个簇间的最大点间距离。

平均链接:两个簇所有点对距离的平均值。

中心链接:两个簇中心间的距离。

实现效率:

层次聚类的计算复杂度通常为 O(n3),适合中小型数据集(数百到千个点)。对于大型数据集效率较低,可能需优化。
实现步骤 (以凝聚聚类为例):

(1)初始化:每个数据点视为一个单独的簇。若有n个点,初始有n个簇。

(2)距离计算:计算每对簇间的距离,常用欧式距离。距离定义依赖链接准则。

(3)合并簇:找到距离最近的两簇,合并为一个新簇,簇数减 1。

(4)更新距离:合并后,更新距离矩阵,计算新簇与其他簇的距离。

(5)迭代:重复上述步骤,直到所有点在一个簇中,或达到预定簇数。

实现示例:

假设数据集 S={A(0,0),B(1,1),C(5,5),D(6,6)},使用单链接,欧式距离:

初始簇:{A},{B},{C},{D}

距离矩阵:

第一次合并:

最近对:A-B 距离1.4,合并为{A,B};

更新矩阵:

第二次合并:

最近对:C-D距离1.4,合并为{C,D}:

更新矩阵:

第三次合并:

合并{A,B}和{C,D}簇为{A,B,C,D},结束。

7.k-means聚类:

K-Means 聚类的目标是将n个数据点划分为k个簇,使得每个点属于距离其最近的簇中心,并最小化簇内点的总方差。其核心思想基于以下假设:

①数据点围绕若干中心(质心)分布,簇是球形或紧凑的。

②通过迭代优化簇中心的位置,逐步收敛到局部最优解。

K-Means 是一种硬聚类方法,每个点严格属于一个簇,不支持模糊分配。

实现效率:
O(nkdt),n个点,k个中心,d维,t次迭代。
实现步骤:

(1)输入:

数据集D={x1,x2,...,xn}包含n个点,每个点是d维向量。簇数k,需要预先指定。距离度量,通常使用欧式距离。

(2)初始化:随机选择k个点作为初始簇中心{μ1,μ2,...,μk}

(K-Means++中对初始簇中心的选择方法进行了改进,先随机选择一个中心,后续中心选择概率与已有中心 的最小距离平方成正比,重复直到选出k个中心。)

(3)分配阶段:

对每个数据点xi:计算其与所有簇中心μi的距离。将xi分配到距离最近的簇中心所属的簇Cj。

(4)更新阶段:

对每个簇Cj:计算簇内所有点的均值,更新簇中心μj:

其中∣Cj∣是簇Cj的点数。

(5)迭代:

重复上述步骤(3)、(4),直到满足终止条件:

①簇中心不再变化(收敛);②达到最大迭代次数;③目标函数变化小于阈值。

(6)输出:

k个簇{C1,C2,...,Ck},及其中心{μ1,μ2,...,μk}

8.体素聚类:

通过将点云划分到三维体素网格(Voxel Grid)中,利用体素之间的连通性或特征进行聚类。

体素聚类需要的参数:体素大小vs。

实现效率:

体素化O(n);聚类O(mlogm),(其中m为体素个数,通常远小于n)
实现步骤:

(1)体素化,计算点云的边界,根据设置的体素大小,将空间划分为Nx *Ny *Nz的网格。

如对于点p=(x,y,z),体素索引为:

将点分配到对应体素。

(2)计算体素特征(可选,若仅连通性聚类,则不需要计算):

统计点数:遍历每个非空体素V(i,j,k),记录其包含的点数Nijk;

计算质心:对体素V(i,j,k)中的点{p1,p2,...,pn},计算中心坐标,用于体素的代表点,用于后续聚类;

标记空体素:若Nijk=0,标记V(i,j,k)为空,也可设置最小点数阈值,过滤噪声体素。

(3)连通性聚类:

①定义邻接规则:
6-邻域:仅考虑上下左右前后6个方向的邻居;
26-邻域:考虑3*3*3立方体内的所有26个邻居。

②初始化:

创建一个空的簇集合{C1,C2,...}和访问标记数组(标记体素是否已经处理过),选择未访问的非空体素V(i,j,k)作为种子。

③连通性遍历:

将种子体素加入C以及队列,弹出队列头部元素,检测其邻居,若邻居非空且未访问,加入C和队列,重复直到队列为空。

重复:

从剩余未访问的非空体素中选择新种子,重复步骤③,直到所有体素被处理。

(4)点簇提取:

将体素簇映射为原点云,生成最终的点云簇。

9.OPTICS:

OPTICS(Ordering Points To Identify the Clustering Structure) 是一种基于密度的聚类算法,克服DBSCAN对单一密度阈值ε依赖的局限性。OPTICS 通过对点云数据进行有序排序,生成一个层次化的聚类结构,支持提取任意密度的聚类结果。

需要的参数:邻域半径ε,最小点数minPts,陡度阈值ξ用于簇提取(0~1之间)。

概念定义:

核心距离:对于点x和参数minPts,核心距离dcore(x)是x到其第minPts个最近邻的距离。若x的邻居数|Nε(x)|<minPts,则dcore(x)=∞。核心距离表示点x是否为核心点,核心点能生成簇。

可达距离:对于点x和其邻近点o,可达距离为:

其中d(x,o)是点x和点o的欧式距离。可达距离表示从核心点x到点o的密度连接成本。

处理顺序:OPTICS按照可达距离从小到大的顺序处理点,优先扩展密度较高的区域。

输出结构:生成一个点序列,每个点带有其核心距离和可达距离,可视化为"可达性图"。

实现效率:
O(nlogn)
实现步骤:

(1)初始化,输入点云P={p1,p2,...,pn},设置邻域半径阈值ε、最小邻居数minPts。创建两个集合,分别存储已处理点(初始为空)和未处理点(初始为所有点)。创建一个优先队列用于排序可达距离。创建输出序列Order和对应的dcore,dreach列表,初始为空。

(2)选择种子点,从未处理的点中随机选择一个点x作为初始起点(或按特点策略选择),将x标记为已处理,加入输出序列Order。

(3)计算核心距离,找到x的ε-邻域内的点集Nε(x),若Nε(x)的个数≥minPts,则按距离排序,取第minPts个点的距离作为dcore(x);若Nε(x)的个数<minPts,则dcore(x)=∞(非核心点)。

(4)扩展簇,若dcore(x)≠∞,则x是核心点,对于Nε(x)中的每个未处理点o,计算dreach(o,x)=max{dcore(x),d(x,o)},将(o,dreach(o,x))加入优先队列(若o不在队列中,进行添加;若o已在队列中,且可达距离比之前存储的值更小,则进行更新;若可达距离不比之前更小,则不更新)。从优先队列中取出可达距离最小的点o',将其标记为已处理,并加入Order,记录dreach(o')、dcore(o'),若o'是核心点,重复扩展过程。

(5)重复,若优先队列为空,从未处理点中选择新种子点,重复步骤(2)-步骤(4),直到所有点被处理。

(6)输出,返回点序列Order和每个点的dreach,dcore。

(7)簇提取,

需要用到的数据:

点序列Order = [p1,p2,...,pn]

可达距离L_dreach=[r1,r2,...,rn];

参数ξ,ξ越大,提取的簇越粗,ξ越小,提取更多细小的簇。

提取步骤:

①初始化,创建簇集合与噪声集合,初始都为空。创建临时簇Ctemp,用于收集潜在簇点。

②检测簇开始,逐点分析可达距离,检查前一点和当前点,若dreach(i)值大(为∞或大于dreach(i+1)),且dreach(i+1)<(1-ξ)·dreach(i),表示pi为簇的起点,则清空Ctemp,添加pi点。

③扩展簇,继续遍历后续点pj(j>i),若dreach(j)满足dreach(j)≤(1+ξ)·dreach(j-1),则添加pj到Ctemp。

④簇结束,若dreach(k)>(1+ξ)·dreach(k-1),表示pk-1是簇的终点。检查Ctemp,若Ctemp的个数≥minPts,则保存到簇集合,否则保存为噪声集合。

⑤处理剩余点,若dreach(i)=∞未形成有效簇,则为噪声,重复直到序列结束。

10.HDBSCAN:

HDBSCAN结合层次聚类和密度估计,是对DBSCAN的改进版本,且不需要指定邻域半径ε 。能够自动识别不同密度和形状的簇,并显式区分噪声点。
实现步骤:

(1)计算核心距离,对输入点云P={p1,p2,...,pn},计算点pi的k个最近邻,dcore(pi)=第k个邻居距离。输出核心距离集合[dcore(p1),dcore(p2),...,dcore(pn)]

(2)构建互达距离图,对每对点(pi,pj),计算互达距离:
dmreach(pi,pj)=max{dcore(pi),dcore(pj),d(pi,pj)}

(同OPTICS算法的可达距离有区别,需注意)

根据互达距离,形成加权图。

(3)构建最小生成树MST,使用kruskal算法从互达距离图中提取最小联通结构,按dmreach从小到大加边,避免环,MST示意图如下图所示:

加粗部分为最小生成树(顶点为点云坐标,数字为权值-即互达距离)

(4)层次聚类,从单一簇MST开始,通过逐步移除(剪枝)较长的边(即互达距离较大的边),将数据分裂成多个子图。随着边被移除,子图的数量逐渐增加,形成一个层次结构,这个过程会持续进行,直到所有的边都被移除。

(5)簇提取,

变量含义:λbirth指一个簇诞生时的密度阈值,λdeath指一个簇结束时的密度阈值,其中λ的计算方式:
λ = 1/dmreach(pi,pj)

每次剪枝时,记录新形成的子图(簇)的λbirth,当这个子图进一步分裂或消失时,记录它的λdeath

稳定性计算:

簇提取的目标,从所有可能的簇中,选择一组互不重叠的簇,使得稳定性最大化,通过EOM(Excess of Mass)策略实现。

相关推荐
Bonnie9 分钟前
深入学习搜索树与字符匹配数据结构
算法·typescript
Tony8825 分钟前
热题100 - 79. 单词搜索
算法
tmacfrank27 分钟前
排序算法总结
java·算法·排序算法
qq_3325394529 分钟前
绕过 reCAPTCHA V2/V3:Python、Selenium 指南
javascript·爬虫·python·selenium·算法·网络爬虫
用户00993831430134 分钟前
数学与算法基础-最优化部分
算法
Leon_vibs37 分钟前
智能Agent如何改造传统工作流:从搜索到全能助手
算法
冠位观测者44 分钟前
【Leetcode 每日一题】2711. 对角线上不同值的数量差
数据结构·算法·leetcode
liang_20261 小时前
2.27省选模拟赛补题记录:直径(容斥,树形dp,换根dp)
笔记·学习·算法
pianmian11 小时前
python每日十题(9)
数据结构·算法
wuqingshun3141592 小时前
蓝桥杯 整数变换
数据结构·c++·算法·职场和发展·蓝桥杯