【机器学习】机器学习四大分类

机器学习的方法主要可以分为 四大类，根据学习方式和数据标注情况进行分类：

特点：

主要算法：

分类（Classification）：
- 逻辑回归（Logistic Regression）
- 支持向量机（SVM）
- 朴素贝叶斯（Naïve Bayes）
- 决策树（Decision Tree）
- 随机森林（Random Forest）
- 神经网络（Neural Networks）
回归（Regression）：
- 线性回归（Linear Regression）
- 岭回归（Ridge Regression）
- Lasso 回归（Lasso Regression）
- 支持向量回归（SVR）
- 神经网络回归（Deep Learning）

应用场景：

特点：

主要算法：

聚类（Clustering）：
- K 均值（K-Means）
- 层次聚类（Hierarchical Clustering）
- DBSCAN（Density-Based Spatial Clustering）
降维（Dimensionality Reduction）：
- 主成分分析（PCA）
- t-SNE（t-Distributed Stochastic Neighbor Embedding）
- Autoencoder（自编码器）
异常检测（Anomaly Detection）：
- 高斯混合模型（GMM）
- One-Class SVM
- Isolation Forest

应用场景：

特点：

主要算法：

应用场景：

特点：

主要算法：

值迭代方法（Value-Based） ：
- Q-Learning（Q 学习）
- 深度 Q 网络（DQN）
策略优化方法（Policy-Based） ：
- REINFORCE
Actor-Critic 方法（混合型） ：
- A2C（Advantage Actor-Critic）
- A3C（Asynchronous Advantage Actor-Critic）
- PPO（Proximal Policy Optimization）

应用场景：

GPT 系列、ChatGPT**

用于优化大语言模型（LLM）在对话任务上的表现。
核心思想：
1. 预训练阶段 ：使用大量文本数据进行监督学习（传统 Transformer 训练方式）。
2. 奖励建模（Reward Model, RM） ：
  - 让人类标注者对模型的输出进行评分（如哪个回答更好）。
  - 训练一个奖励模型（Reward Model, RM），学习人类的偏好。
3. 强化学习优化（PPO） ：
  - 用 PPO（Proximal Policy Optimization） 算法调整 Transformer 的输出，使其最大化人类反馈的奖励。
应用案例：
- OpenAI 的 ChatGPT、GPT-4：用 RLHF 让 AI 回答更加自然、符合人类期待。
- Google DeepMind 的 Sparrow：一个受 RLHF 训练的对话 AI，减少错误信息。

随着深度学习的发展，出现了一些新的学习范式 ，如迁移学习、自监督学习、在线学习、联邦学习等，它们通常被视为机器学习的扩展或特定应用方法 。虽然不是机器学习的"基本类型"，但这些方法在现代 AI 发展中起到了重要作用，属于应用层面的学习策略：

迁移学习（Transfer Learning）
- 概念：用一个任务上训练好的模型，迁移到新任务。
- 应用：NLP（BERT、GPT）、计算机视觉（ResNet 迁移到医学影像分析）。
自监督学习（Self-Supervised Learning）
- 概念：让模型自己生成标签，无需人工标注。
- 应用：BERT 预训练（通过 Masked Language Model 训练）、SimCLR（无监督表征学习）。
在线学习（Online Learning）
- 概念：模型在新数据到来时持续更新，而不是一次性训练完。
- 应用：实时推荐系统、金融预测。
联邦学习（Federated Learning）
- 概念：多个设备本地训练模型，汇总更新，而不共享原始数据。
- 应用：隐私保护型 AI，如手机个性化推荐。