机器学习的方法主要可以分为 四大类,根据学习方式和数据标注情况进行分类:
1. 监督学习(Supervised Learning)
特点:
- 有标注数据(即训练数据有明确的输入 ( X ) 和输出 ( Y ))。
- 学习目标是找到一个映射 ( f(X) \approx Y )。
- 适用于分类和回归问题。
主要算法:
-
分类(Classification):
- 逻辑回归(Logistic Regression)
- 支持向量机(SVM)
- 朴素贝叶斯(Naïve Bayes)
- 决策树(Decision Tree)
- 随机森林(Random Forest)
- 神经网络(Neural Networks)
-
回归(Regression):
- 线性回归(Linear Regression)
- 岭回归(Ridge Regression)
- Lasso 回归(Lasso Regression)
- 支持向量回归(SVR)
- 神经网络回归(Deep Learning)
应用场景:
- 电子邮件垃圾分类(分类)
- 股票价格预测(回归)
- 语音识别(分类)
- 医学诊断(分类)
2. 无监督学习(Unsupervised Learning)
特点:
- 无标签数据(训练数据只有输入 ( X ),没有对应的输出 ( Y ))。
- 主要目标是发现数据的结构、模式或隐藏特征。
主要算法:
-
聚类(Clustering):
- K 均值(K-Means)
- 层次聚类(Hierarchical Clustering)
- DBSCAN(Density-Based Spatial Clustering)
-
降维(Dimensionality Reduction):
- 主成分分析(PCA)
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
- Autoencoder(自编码器)
-
异常检测(Anomaly Detection):
- 高斯混合模型(GMM)
- One-Class SVM
- Isolation Forest
应用场景:
- 客户群体划分(聚类)
- 图像压缩(降维)
- 信用卡欺诈检测(异常检测)
- 推荐系统(聚类 + 降维)
3. 半监督学习(Semi-Supervised Learning)
特点:
- 少量有标签数据 + 大量无标签数据。
- 结合监督学习和无监督学习的优点,在标签数据少的情况下提升学习效果。
主要算法:
- 自训练(Self-Training)
- 伪标签(Pseudo-Labeling)
- 图神经网络(Graph Neural Networks, GNN)
- 变分自编码器(VAE)
应用场景:
- 医学影像分类(标注数据昂贵,但有大量无标签数据)
- 语音识别(仅部分数据带有标注)
- 互联网爬虫数据分析(大量无标签网页数据)
4. 强化学习(Reinforcement Learning, RL)
特点:
- 智能体(Agent)与环境(Environment)交互,通过试错学习最优策略。
- 通过奖励机制(Reward) 反馈行为的好坏,目标是最大化长期回报。
主要算法:
- 值迭代方法(Value-Based) :
- Q-Learning(Q 学习)
- 深度 Q 网络(DQN)
- 策略优化方法(Policy-Based) :
- REINFORCE
- Actor-Critic 方法(混合型) :
- A2C(Advantage Actor-Critic)
- A3C(Asynchronous Advantage Actor-Critic)
- PPO(Proximal Policy Optimization)
应用场景:
- 游戏 AI(AlphaGo、Dota 2 AI)
- 机器人控制(自动驾驶、机械臂)
- 交易策略优化(股票市场)
- 自动化推荐系统(动态决策)
监督学习+强化学习示例
GPT 系列、ChatGPT**
-
用于优化大语言模型(LLM)在对话任务上的表现。
-
核心思想:
- 预训练阶段 :使用大量文本数据进行监督学习(传统 Transformer 训练方式)。
- 奖励建模(Reward Model, RM) :
- 让人类标注者对模型的输出进行评分(如哪个回答更好)。
- 训练一个奖励模型(Reward Model, RM),学习人类的偏好。
- 强化学习优化(PPO) :
- 用 PPO(Proximal Policy Optimization) 算法调整 Transformer 的输出,使其最大化人类反馈的奖励。
-
应用案例:
- OpenAI 的 ChatGPT、GPT-4:用 RLHF 让 AI 回答更加自然、符合人类期待。
- Google DeepMind 的 Sparrow:一个受 RLHF 训练的对话 AI,减少错误信息。
机器学习的扩展方法
随着深度学习的发展,出现了一些新的学习范式 ,如迁移学习、自监督学习、在线学习、联邦学习等,它们通常被视为机器学习的扩展或特定应用方法 。虽然不是机器学习的"基本类型",但这些方法在现代 AI 发展中起到了重要作用,属于应用层面的学习策略:
-
迁移学习(Transfer Learning)
- 概念:用一个任务上训练好的模型,迁移到新任务。
- 应用:NLP(BERT、GPT)、计算机视觉(ResNet 迁移到医学影像分析)。
-
自监督学习(Self-Supervised Learning)
- 概念:让模型自己生成标签,无需人工标注。
- 应用:BERT 预训练(通过 Masked Language Model 训练)、SimCLR(无监督表征学习)。
-
在线学习(Online Learning)
- 概念:模型在新数据到来时持续更新,而不是一次性训练完。
- 应用:实时推荐系统、金融预测。
-
联邦学习(Federated Learning)
- 概念:多个设备本地训练模型,汇总更新,而不共享原始数据。
- 应用:隐私保护型 AI,如手机个性化推荐。