【数据挖掘-思考】分类和聚类

将芝麻和花生分开,是一个分类问题还是聚类问题?

显而易见的,在日常生活中,这是一个分类问题,在数据挖掘领域中,是否也是这样呢?


通义千问的回答:

在数据挖掘中,将芝麻和花生分开可以根据不同的场景被视为分类或聚类问题:

  • 分类 (Classification): 如果我们已经有了一套标注好的数据集,即一部分芝麻已经被标记为"芝麻",一部分绿豆被标记为"绿豆",并且我们的目标是基于这些已知的样本特征来训练一个模型,以便对新的未标记物品进行预测(判断它是芝麻还是绿豆),那么这个问题就是一个分类问题。
  • 聚类 (Clustering): 如果我们没有预先标记的数据,而是有一堆混在一起的种子,我们希望通过分析种子的大小、颜色、形状等属性,将它们自动分成几组,并且假设这些组能合理地对应到芝麻和绿豆这两类,那么这就是一个聚类问题。聚类旨在根据对象之间的相似性或距离,将它们分组成多个簇,每簇内部的对象相似度较高,而簇间相似度较低。
  • 因此,决定这是分类还是聚类问题的关键在于是否有预定义的类别标签。如果有标签,就是分类;如果没有,而是需要自动发现类别,那就是聚类。

这样学术性的回答好复杂>﹏<

我的老师教给我的:

也就是说,需要训练数据,构建模型的问题是分类问题,很显然这里没有用到,所以是聚类问题。聚类问题关键在于根据某种标准将相似度高的对象分到一起。

你能理解吗?


点赞关注收藏,获取更多干货知识~

相关推荐
Niuguangshuo6 小时前
交叉熵损失函数:深度学习分类任务的基石
人工智能·深度学习·分类
老蒋新思维10 小时前
创客匠人峰会实录:AI 赋能 IP 定位破局 —— 创始人知识变现的差异化增长路径
网络·人工智能·网络协议·tcp/ip·数据挖掘·创始人ip·创客匠人
highreport11 小时前
开源免费BI数据分析软件
数据挖掘·数据分析·bi数据分析·bi图表分析·开源免费bi数据分析
晞微12 小时前
AlexNet 迁移学习实战:CIFAR-10 图像分类实验
人工智能·分类·迁移学习
思通数科多模态大模型12 小时前
多业态连锁环境管理系统:AI + 机器人闭环,坪效提升 16%
人工智能·深度学习·目标检测·机器学习·计算机视觉·数据挖掘·语音识别
晞微12 小时前
VGG16 迁移学习实战:CIFAR-10 图像分类优化方案
人工智能·分类·迁移学习
deardao13 小时前
ChatTime:连接数值与文本数据的统一多模态时间序列基础模型
数据挖掘·时间序列
吃完香皂不吐泡13 小时前
【深度学习实战/计算机视觉实战】PyTorch框架下基于ResNet的102种花卉图像分类模型
pytorch·深度学习·计算机视觉·分类·迁移学习
民乐团扒谱机14 小时前
【微实验】OPTICS算法:让密度不均的数据“各归其类”
人工智能·算法·机器学习·支持向量机·matlab·聚类·optics
我是哈哈hh14 小时前
【Python数据分析】数据分析完整流程(全)
开发语言·python·数据挖掘·数据分析