机器学习之学习范式

机器学习的四种主要范式分别是：监督学习、非监督学习、强化学习和半监督学习。以下是每种范式的详细介绍：

定义： 通过已标注的数据训练模型，以预测或分类未知数据。

定义： 数据没有标签，模型通过发现数据内在结构进行学习。

目标： 识别数据中的模式或结构。
输入： 未标注的特征数据。
应用场景：
- 聚类问题：客户分群、图像分割。
- 降维问题：主成分分析（PCA）、t-SNE用于数据可视化。
- 异常检测：信用卡欺诈检测、工业设备故障检测。
常见算法：
- 聚类：K均值（K-Means）、层次聚类、高斯混合模型（GMM）。
- 降维：PCA、因子分析、非负矩阵分解（NMF）。

定义： 通过与环境交互，不断试探和学习以优化行为策略。

目标： 学习如何在环境中做出决策以最大化累积奖励。
输入： 状态（State）、动作（Action）和奖励（Reward）。
输出： 最优策略（Policy）。
应用场景：
- 游戏：AlphaGo、OpenAI Five（Dota 2）。
- 自动驾驶：路径规划、避障。
- 资源分配：网络流量优化、机器人控制。
常见算法：
- 基于值函数：Q-Learning、深度Q网络（DQN）。
- 基于策略：策略梯度、深度确定性策略梯度（DDPG）。
- 混合方法：Actor-Critic、A3C。

定义： 利用大量未标注数据和少量标注数据进行训练。

目标： 平衡标注数据的使用效率和未标注数据的信息价值。
输入： 少量标注数据+大量未标注数据。
应用场景：
- 医学影像分析：手动标注成本高。
- 自然语言处理：低资源语言的语料不足。
常见算法：
- 基于图的方法：图神经网络（GNN）、标签传播。
- 半监督生成模型：变分自编码器（VAE）、生成对抗网络（GAN）。
- 自训练（Self-training）：伪标签生成。

以下是监督学习、非监督学习、强化学习和半监督学习的对比表格：

范式	定义	数据特点	目标	应用场景	常见算法
监督学习	基于标注数据学习输入到输出的映射关系。	大量标注数据	预测或分类未知数据	图像分类、垃圾邮件检测、房价预测	线性回归、逻辑回归、SVM、决策树、随机森林
非监督学习	通过发现数据内在结构进行学习，无需标注。	无标签数据	找到数据模式或结构	客户分群、异常检测、数据可视化	K均值、层次聚类、PCA、GMM
强化学习	基于环境交互和奖励机制优化行为策略。	状态、动作、奖励	最大化长期累计奖励	游戏AI、机器人控制、自动驾驶	Q-Learning、DQN、策略梯度、Actor-Critic
半监督学习	利用少量标注数据和大量未标注数据训练模型。	少量标注+大量未标注	平衡标注数据效率和未标注数据价值	医学影像分析、低资源语言处理	自训练、标签传播、GAN、VAE

根据任务特点可以灵活选择或结合这些范式。

自监督学习（Self-Supervised Learning）： 使用未标注数据构造标签，自行学习表示（如对比学习）。应用于预训练大模型（如BERT、GPT）。
无监督强化学习（Unsupervised Reinforcement Learning）： 不提供明确奖励的情况下，通过设定自定义目标进行学习。

这四种范式形成了机器学习的主要框架，根据任务的性质和需求选择适用的范式，或结合使用多种范式。