【机器学习】机器学习四大类第01课

一、机器学习四大类

有监督学习 (Supervised Learning)

有监督学习是通过已知的输入-输出对（即标记过的训练数据）来学习函数关系的过程。在训练阶段，模型会根据这些示例调整参数以尽可能准确地预测新的、未见过的数据点的输出。实例：垃圾邮件分类器。训练数据集包含一系列电子邮件及其对应的标签（垃圾邮件或非垃圾邮件）。通过学习这些特征与标签之间的关联，模型可以用于识别新的邮件是否为垃圾邮件。

无监督学习 (Unsupervised Learning)

在无监督学习中，没有给定特定的输出标签，算法需要自己发现数据中的内在结构、模式或集群。它的目标通常是将数据进行分组或降维，以便更好地理解数据分布。实例：客户细分。假设我们有一组客户的行为数据（如购买历史、访问频率等），但没有明确的类别标签。使用聚类算法（例如K-means）可以将相似行为模式的客户自动划分为不同的群体。

半监督学习 (Semi-supervised Learning)

半监督学习

介于有监督学习和无监督学习之间，它利用一部分带有标签的数据和大量未标记的数据进行学习。通常在标注数据有限的情况下，这种学习方式可以帮助提高模型性能。实例：图像分类。如果只有部分图像被人工标注了类别，而剩余大部分图像没有标签，模型可以通过分析图像间的相似性，在已知标签图像的帮助下，推断出未标记图像的类别。

强化学习 (Reinforcement Learning, RL)

强化学习

是一种序列决策过程的学习方法，智能体通过与环境交互获得奖励或惩罚，并根据这些反馈调整其策略以最大化长期累积奖励。实例：AlphaGo（围棋AI）。AlphaGo在每次走棋时都会得到一个即时的奖励信号（赢棋或输棋的最终结果，以及过程中每一步棋的相对价值估计），通过不断对弈学习最优策略，逐步提高棋艺水平。

二、具体解释以上四种学习

细节概念：

输入 (Input)：输入是指模型接收到的数据或信息。这些数据通常以**特征【属性与特征区别：属性可以理解为路程，特征可以理解为路程是1公里，特征有具体值。】**的形式呈现，可以帮助模型理解和分析问题。例如，在房价预测的任务中，输入可能包括房屋的面积、卧室数量、地理位置、建成年份等特征。

实例：设想一个简单的水果识别系统，这里的输入可能是一张包含水果的图片。这张图片会被转换为像素值等数字特征，作为模型判断"这是什么水果"的依据。

输出 (Output)：输出是模型根据输入数据经过处理后得出的结果。对于分类任务，输出是一个类别标签；回归任务则是一个连续数值；而强化学习中输出可能是采取某个动作的决策。

实例：

继续上面的水果识别系统例子，模型的输出将是识别出的水果种类，如苹果、香蕉或橙子。

在房价预测模型中，输出将是基于输入特征预测出的该房屋的价格（一个具体的数值）。

对于强化学习中的AlphaGo，每一步棋的输出则是它决定走的下一步棋的位置（即策略选择）。

整体细分

垃圾邮件分类器（有监督学习）

输入：模型接收到的是一封电子邮件的内容，包括邮件主题、正文、发件人信息等特征，这些特征被转化为数值向量表示。

处理过程：模型使用如逻辑回归、朴素贝叶斯、支持向量机或深度学习等算法，通过学习训练集中已标记为"垃圾邮件"或"非垃圾邮件"的邮件样本特征与标签之间的关联规律。

输出：模型预测给定新邮件是否为垃圾邮件，输出结果是一个概率值或者类别标签。例如，输出0.95可能意味着模型判断该邮件是垃圾邮件的概率为95%，而输出"垃圾邮件"则直接指明了邮件类型。

客户细分（无监督学习）

输入：模型接收一组客户的多维度数据，比如消费记录、浏览行为、购买频率、产品偏好等特征。

处理过程：应用聚类算法（如K-means或层次聚类），将相似特征的客户归入同一簇中，算法根据数据内在结构和模式自动划分集群，无需事先知道客户的具体类别。

输出：模型最终生成多个客户群体，并为每个客户提供一个所属的簇标识。例如，输出可能是客户A属于"高价值潜在用户"簇，客户B属于"频繁购物者"簇。

图像分类（半监督学习）

输入：一部分图像具有人工标注的类别标签，其余大部分图像没有标签。每张图片都转换为像素强度构成的数字矩阵作为特征。

处理过程：模型首先利用有限的带标签数据进行初步训练，然后在大量未标记的数据上运用自训练、迁移学习或生成对抗网络等方法来进一步提升模型性能。

输出：对于新的未知类别图像，模型能够预测出其所属类别。例如，输出一张未知猫狗照片的类别为"猫"。

AlphaGo（强化学习）

输入：在每一轮游戏过程中，AlphaGo的输入是当前围棋棋盘的状态，即黑子白子的位置分布。

处理过程：AlphaGo基于深度神经网络（策略网络和价值网络）计算出各种可能下法的得分和局面评估值，并通过蒙特卡洛树搜索结合这两个网络的结果，确定最优走法。

输出：在每一步决策时，模型会输出它认为最佳的下一步落子位置，从而采取行动。随着游戏的进行，不断学习并优化策略以最大化最终获胜的可能性。