【数据挖掘-思考】分类和聚类

将芝麻和花生分开,是一个分类问题还是聚类问题?

显而易见的,在日常生活中,这是一个分类问题,在数据挖掘领域中,是否也是这样呢?


通义千问的回答:

在数据挖掘中,将芝麻和花生分开可以根据不同的场景被视为分类或聚类问题:

  • 分类 (Classification): 如果我们已经有了一套标注好的数据集,即一部分芝麻已经被标记为"芝麻",一部分绿豆被标记为"绿豆",并且我们的目标是基于这些已知的样本特征来训练一个模型,以便对新的未标记物品进行预测(判断它是芝麻还是绿豆),那么这个问题就是一个分类问题。
  • 聚类 (Clustering): 如果我们没有预先标记的数据,而是有一堆混在一起的种子,我们希望通过分析种子的大小、颜色、形状等属性,将它们自动分成几组,并且假设这些组能合理地对应到芝麻和绿豆这两类,那么这就是一个聚类问题。聚类旨在根据对象之间的相似性或距离,将它们分组成多个簇,每簇内部的对象相似度较高,而簇间相似度较低。
  • 因此,决定这是分类还是聚类问题的关键在于是否有预定义的类别标签。如果有标签,就是分类;如果没有,而是需要自动发现类别,那就是聚类。

这样学术性的回答好复杂>﹏<

我的老师教给我的:

也就是说,需要训练数据,构建模型的问题是分类问题,很显然这里没有用到,所以是聚类问题。聚类问题关键在于根据某种标准将相似度高的对象分到一起。

你能理解吗?


点赞关注收藏,获取更多干货知识~

相关推荐
机器学习之心13 小时前
多智能体遗传算法(MAGA)优化最优投影方向的投影寻踪聚类评价,MATLAB代码
matlab·聚类·投影寻踪聚类评价
AI科技星13 小时前
精细结构常数α作为SI 7大基本量纲统一耦合常数的量子几何涌现理论
算法·机器学习·数学建模·数据挖掘·量子计算
STLearner14 小时前
SIGIR 2026 | LLM × Graph论文总结(图增强LLM,GraphRAG,Agent,多模态,知识图谱,搜索,推
人工智能·python·深度学习·神经网络·机器学习·数据挖掘·知识图谱
ZGi.ai14 小时前
智能客服系统设计:从工单分类到自动派单的工程实现
大数据·人工智能·分类
xrui5816 小时前
2026实测:让 Gemini 3.1镜像站抓取邮箱并智能分类,GTD 效率提升 3 倍
人工智能·分类·数据挖掘
2zcode17 小时前
基于MATLAB的深度学习工业表面缺陷多分类检测系统设计与实现(GUI界面+数据集+训练代码)
深度学习·matlab·分类
geneculture17 小时前
《一种智能通信子母机》(申请日 1993.4.7公开号CN1095341A)专利文件的全文汉英双语对照版本+系统点评
人工智能·数据挖掘·哲学与科学统一性·智能通信
一晌小贪欢17 小时前
第1节:数据分析环境配置——Jupyter Notebook全攻略
jupyter·数据挖掘·数据分析·可视化·数据可视化
HQChart17 小时前
HQChart使用教程105-K线图,分时图如何对接AI进行数据分析
人工智能·数据挖掘·数据分析·hqchart·k线图·走势图
AI科技星18 小时前
全域数学·数术本源·第四卷《分析原本》【乖乖数学】
人工智能·机器学习·数学建模·数据挖掘·agi