【数据挖掘-思考】分类和聚类

将芝麻和花生分开,是一个分类问题还是聚类问题?

显而易见的,在日常生活中,这是一个分类问题,在数据挖掘领域中,是否也是这样呢?


通义千问的回答:

在数据挖掘中,将芝麻和花生分开可以根据不同的场景被视为分类或聚类问题:

  • 分类 (Classification): 如果我们已经有了一套标注好的数据集,即一部分芝麻已经被标记为"芝麻",一部分绿豆被标记为"绿豆",并且我们的目标是基于这些已知的样本特征来训练一个模型,以便对新的未标记物品进行预测(判断它是芝麻还是绿豆),那么这个问题就是一个分类问题。
  • 聚类 (Clustering): 如果我们没有预先标记的数据,而是有一堆混在一起的种子,我们希望通过分析种子的大小、颜色、形状等属性,将它们自动分成几组,并且假设这些组能合理地对应到芝麻和绿豆这两类,那么这就是一个聚类问题。聚类旨在根据对象之间的相似性或距离,将它们分组成多个簇,每簇内部的对象相似度较高,而簇间相似度较低。
  • 因此,决定这是分类还是聚类问题的关键在于是否有预定义的类别标签。如果有标签,就是分类;如果没有,而是需要自动发现类别,那就是聚类。

这样学术性的回答好复杂>﹏<

我的老师教给我的:

也就是说,需要训练数据,构建模型的问题是分类问题,很显然这里没有用到,所以是聚类问题。聚类问题关键在于根据某种标准将相似度高的对象分到一起。

你能理解吗?


点赞关注收藏,获取更多干货知识~

相关推荐
Rorsion1 小时前
PyTorch实现二分类(单特征输出+单层神经网络)
人工智能·pytorch·分类
Lun3866buzha5 小时前
【深度学习应用】鸡蛋裂纹检测与分类:基于YOLOv3的智能识别系统,从图像采集到缺陷分类的完整实现
深度学习·yolo·分类
Lun3866buzha5 小时前
YOLOv8-SEG-FastNet-BiFPN实现室内物品识别与分类:背包、修正带、立方体和铅笔盒检测指南
yolo·分类·数据挖掘
Faker66363aaa7 小时前
基于YOLOv8-GhostHGNetV2的绝缘子破损状态检测与分类系统实现
yolo·分类·数据挖掘
说私域7 小时前
日本零售精髓赋能下 链动2+1模式驱动新零售本质回归与发展格局研究
人工智能·小程序·数据挖掘·回归·流量运营·零售·私域运营
Faker66363aaa8 小时前
药品包装识别与分类系统:基于Faster R-CNN R50 FPN的Groie数据集训练_1
分类·r语言·cnn
Liue612312318 小时前
【YOLO11】基于C2CGA算法的金属零件涂胶缺陷检测与分类
人工智能·算法·分类
databook8 小时前
像搭积木一样思考:数据科学中的“自下而上”之道
python·数据挖掘·数据分析
啊阿狸不会拉杆8 小时前
《机器学习导论》第 9 章-决策树
人工智能·python·算法·决策树·机器学习·数据挖掘·剪枝
玄同7659 小时前
机器学习中的三大距离度量:欧式距离、曼哈顿距离、切比雪夫距离详解
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·数据挖掘