【数据挖掘-思考】分类和聚类

将芝麻和花生分开,是一个分类问题还是聚类问题?

显而易见的,在日常生活中,这是一个分类问题,在数据挖掘领域中,是否也是这样呢?


通义千问的回答:

在数据挖掘中,将芝麻和花生分开可以根据不同的场景被视为分类或聚类问题:

  • 分类 (Classification): 如果我们已经有了一套标注好的数据集,即一部分芝麻已经被标记为"芝麻",一部分绿豆被标记为"绿豆",并且我们的目标是基于这些已知的样本特征来训练一个模型,以便对新的未标记物品进行预测(判断它是芝麻还是绿豆),那么这个问题就是一个分类问题。
  • 聚类 (Clustering): 如果我们没有预先标记的数据,而是有一堆混在一起的种子,我们希望通过分析种子的大小、颜色、形状等属性,将它们自动分成几组,并且假设这些组能合理地对应到芝麻和绿豆这两类,那么这就是一个聚类问题。聚类旨在根据对象之间的相似性或距离,将它们分组成多个簇,每簇内部的对象相似度较高,而簇间相似度较低。
  • 因此,决定这是分类还是聚类问题的关键在于是否有预定义的类别标签。如果有标签,就是分类;如果没有,而是需要自动发现类别,那就是聚类。

这样学术性的回答好复杂>﹏<

我的老师教给我的:

也就是说,需要训练数据,构建模型的问题是分类问题,很显然这里没有用到,所以是聚类问题。聚类问题关键在于根据某种标准将相似度高的对象分到一起。

你能理解吗?


点赞关注收藏,获取更多干货知识~

相关推荐
郝学胜-神的一滴14 小时前
反向传播:神经网络的「灵魂」修炼法则
人工智能·pytorch·深度学习·神经网络·机器学习·数据挖掘
Fleshy数模20 小时前
基于 Qwen2.5-1.5B-Instruct 实现多轮对话与文本分类实践
人工智能·分类·大模型
Betelgeuse761 天前
从爬虫脚本到 AI 智能体:一次数据挖掘实践的完整进化
人工智能·爬虫·数据挖掘
计算机毕业编程指导师2 天前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
计算机毕业编程指导师2 天前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·django
夜郎king2 天前
水力模型 INP 文件如何导入 QGIS?超详细实操教程
人工智能·数据挖掘·水力模型·qgis水力制图
计算机毕业编程指导师2 天前
基于Spark的性格行为数据分析与可视化系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·python·数据挖掘·数据分析·spark·毕业设计·性格行为
QDYOKR1682 天前
OKR管理系统怎么选?2026主流OKR工具深度解析
大数据·人工智能·信息可视化·数据挖掘·数据分析
Dfreedom.2 天前
【实战篇】分类任务全流程演示——决策树
人工智能·算法·决策树·机器学习·分类
2601_954971132 天前
经济学专业考CDA数据分析师证书值不值?对求职帮助到底有多大
数据挖掘