机器学习（西瓜书）第 9 章聚类

9.1 聚类任务和距离计算

在"无监督学习"中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是"聚类"(clustering).

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个"簇"(cluster).通过这样的划分，每个簇可能对应于一些潜在的概念(类别)，如 "浅色瓜" "深色瓜"，"有籽瓜" "无籽瓜"，甚至"本地瓜" "外地瓜"等；需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名.

聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分类等其他学习任务的前驱过程.例如，在一些商业应用中需对新用户的类型进行判别，但定义"用户类型"对商家来说却可能不太容易，此时往往可先对用户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型,用于判别新用户的类型.

基于不同的学习策略，人们设计出多种类型的聚类算法.本章后半部分将对不同类型的代表性算法进行介绍，但在此之前，我们先讨论聚类算法涉及的两个基本问题一一性能度量和距离计算.