Java使用apache.commons.math3的DBSCAN实现自动聚类

K-Means: 如果你能大致估计出类别的数量,K-Means通常也是一个高效的选择。但它对异常值敏感,且要求簇是球状的。对于一些不知道数据可能会有多少类别的时候,可用试试DBSCAN算法,因为你通常无法预先知道文章会自动分成多少类(K值未知),用DBSCAN是非常不错的,能自动判断拿出类别数量,这里讲解一下java的math3里面自带方法

示例

java 复制代码
package com.data;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import org.apache.commons.math3.ml.clustering.Cluster;
import org.apache.commons.math3.ml.clustering.DBSCANClusterer;
import org.apache.commons.math3.ml.clustering.DoublePoint;

public class TestDBSCAN {

	public static void main(String[] args) {
		List<DoublePoint> rawPoints = new ArrayList<>();
		rawPoints.add(new DoublePoint(new double[] { 0.1, 0.2, 0.3 }));
		rawPoints.add(new DoublePoint(new double[] { 0.2, 0.14, 0.22 }));

		// 此处故意设置两个比较大点的值,和小点的值
		rawPoints.add(new DoublePoint(new double[] { 0.3, 0.4, 0.43 }));
		rawPoints.add(new DoublePoint(new double[] { 0.88, 0.8, 0.8 }));

		rawPoints.add(new DoublePoint(new double[] { 0.02, 0.112, 0.08 }));

		// 多少距离内归纳为同一个簇(两个向量之间的距离)
		double eps = 0.24;

		// 需要几个点形成簇
		int minPts = 0;

		// 执行聚类
		DBSCANClusterer<DoublePoint> clusterer = new DBSCANClusterer<>(eps, minPts);
		List<Cluster<DoublePoint>> clusters = clusterer.cluster(rawPoints);

		System.out.println("==== 聚类结果 ====");
		System.out.println("发现簇数量: " + clusters.size());

		// 打印每个簇
		for (int i = 0; i < clusters.size(); i++) {
			System.out.println("\n簇 #" + (i + 1) + ":");
			for (DoublePoint p : clusters.get(i).getPoints()) {
				System.out.println("  " + Arrays.toString(p.getPoint()));
			}
		}

	}

}

打印结果,很明显的自动区分了3个类别

java 复制代码
==== 聚类结果 ====
发现簇数量: 3

簇 #1:
  [0.1, 0.2, 0.3]
  [0.2, 0.14, 0.22]
  [0.02, 0.112, 0.08]

簇 #2:
  [0.3, 0.4, 0.43]

簇 #3:
  [0.88, 0.8, 0.8]
java 复制代码
// 多少距离内归纳为同一个簇(两个向量之间的距离)
double eps = 0.24;

// 需要几个点形成簇
int minPts = 0;

关键在于这两个参数,eps,比如设置成1,所有的都是同一类,也就只有一个簇,
当minPts设置为1的时候,这里不会出现簇2 簇3,因为小于等于1不认为是一个簇(分类),
所以具体根据数据调整参数即可

文本分类如何应用

既然上面讲述了算法,文本无非就是提取向量,扔进去计算,一般文本向量分为两种,词频向量(TF),语义向量(bert,word2vec,大模型经常用到的那种),只要拿到向量扔进去就能自动归类,这样知道其中某一段文本的类别,其他自然都知道了,应用完全能根据自己需求实现,思路大致都是一样的

相关推荐
摇滚侠12 分钟前
SpringMVC 入门到实战 文件上传 75-77
java·后端·spring·maven·intellij-idea
元岳数字人小元14 分钟前
AI 数字人开发公司浅谈 虚拟数字人打造景区新服务
人工智能·人机交互·交互
哦哦~92118 分钟前
AI赋能生物医学:从临床数据到药物分子性质预测实战培
人工智能·生物医学·药物分子
GIS数据转换器20 分钟前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
虫无涯23 分钟前
本地离线大模型实战:Ollama + Llama 3.1 8B 全流程部署(适配VSCode Continue代码助手)
人工智能
Rocky Ding*38 分钟前
Latent Consistency Models:一篇读懂扩散模型的少步生成核心基础知识
人工智能·深度学习·机器学习·ai作画·stable diffusion·aigc·ai-native
大山佬40 分钟前
AI 边缘部署:MCU 上的轻量级目标检测,从 YOLO 到 TFLite Micro 的全链路优化
人工智能
数睿数据无代码开发41 分钟前
深度解析smardaten数据大屏:六大核心功能重塑可视化开发
人工智能·信息可视化
陈猪的杰咪42 分钟前
GitHub Copilot 2026计费新规:AI Credits消耗解析与节省策略
人工智能·ai·架构·github·copilot
学术头条1 小时前
清华团队开源SCAIL-2:角色动画告别骨骼依赖,端到端还原视频中动作细节
人工智能·科技·机器学习·ai·开源·音视频·agi