【机器学习】核心分类及详细介绍

- 机器学习按学习方式分类（核心维度）
- 一、监督学习
- - [1.1. 分类算法（解决 "类别预测" 问题）](#1.1. 分类算法（解决 “类别预测” 问题）)
  - [1.2. 回归算法（解决 "数值预测" 问题）](#1.2. 回归算法（解决 “数值预测” 问题）)
- 二、无监督学习
- - [2.1. 聚类算法（核心：按 "相似性" 自动分组）](#2.1. 聚类算法（核心：按 “相似性” 自动分组）)
  - [2.2. 降维算法（核心：简化数据，保留关键信息）](#2.2. 降维算法（核心：简化数据，保留关键信息）)
  - [2.3. 关联规则学习（核心：挖掘数据间的 "关联关系"）](#2.3. 关联规则学习（核心：挖掘数据间的 “关联关系”）)
- 三、半监督学习
- - [3.1 生成式模型（核心：建模数据整体分布）](#3.1 生成式模型（核心：建模数据整体分布）)
  - [3.2. 自训练与协同训练（核心："伪标签" 迭代优化）](#3.2. 自训练与协同训练（核心：“伪标签” 迭代优化）)
  - [3.3. 基于图的半监督学习（核心：挖掘数据 "关联结构"）](#3.3. 基于图的半监督学习（核心：挖掘数据 “关联结构”）)
  - [3.4. 半监督支持向量机（核心：优化 "分类边界"）](#3.4. 半监督支持向量机（核心：优化 “分类边界”）)
- 四、强化学习
- - [4.1. 按核心学习对象分类（最常用维度）](#4.1. 按核心学习对象分类（最常用维度）)
  - - [4.1.1. 价值函数类（Value-Based）](#4.1.1. 价值函数类（Value-Based）)
    - [4.1.2. 策略函数类（Policy-Based）](#4.1.2. 策略函数类（Policy-Based）)
    - [4.1.3. 深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）](#4.1.3. 深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）)
  - [4.2. 按是否依赖环境模型分类](#4.2. 按是否依赖环境模型分类)
  - - [4.2.1. 免模型强化学习（Model-Free RL）](#4.2.1. 免模型强化学习（Model-Free RL）)
    - [4.2.2. 有模型强化学习（Model-Based RL）](#4.2.2. 有模型强化学习（Model-Based RL）)
  - [4.3. 其他重要算法](#4.3. 其他重要算法)
- 五、神经网络
- 如果这篇文章对你有所帮助，渴望获得你的一个点赞！

机器学习（Machine Learning, ML）是人工智能（AI）的核心分支，其核心目标是让计算机通过 "学习数据中的规律" 自动改进性能，无需人工编写具体规则，最终实现 "预测、分类、决策" 等智能化任务。简单来说，机器学习让计算机具备 "从经验中学习" 的能力，就像人类通过观察和实践积累知识一样。

机器学习按学习方式分类（核心维度）

分类	核心特点	关键场景示例
监督学习	用 "带标签" 的数据训练（输入→已知输出），目标是学习输入到输出的映射关系。	垃圾邮件识别（邮件→"垃圾 / 正常" 标签）、房价预测（面积 / 地段→价格）
无监督学习	用 "无标签" 的数据训练，目标是挖掘数据本身的内在结构（如聚类、规律）。	用户分群（无标签用户→按行为聚类）、异常检测（识别数据中的 "异类"）
半监督学习	结合 "少量带标签数据" 和 "大量无标签数据" 训练，平衡数据成本与模型效果。	文本分类（少量标注文章 + 大量未标注文章）、图像识别（少量标注图 + 大量原图）
强化学习	模型通过与环境 "交互试错" 学习：执行动作→获得奖励 / 惩罚→调整策略，目标是最大化长期奖励。	机器人导航、AlphaGo（围棋对战）、游戏 AI（如王者荣耀 AI）

一、监督学习

监督学习算法围绕 "从带标签数据中学习输入到输出的映射" 设计，核心分为分类算法 （输出离散类别）和回归算法（输出连续数值）

1.1. 分类算法（解决 "类别预测" 问题）

适用于垃圾邮件识别、疾病诊断、图像分类等场景，目标是将数据划分到预设类别中。

算法名称	核心原理	优势	适用场景
逻辑回归	基于线性模型，通过 Sigmoid 函数将输出映射到 [0,1]，判断类别概率。	模型简单、可解释性强，易训练和部署。	二分类问题（如 "患病 / 健康"、"垃圾 / 正常邮件"）。
决策树	模拟人类决策逻辑，通过 "特征判断节点"（如 "年龄 > 30？"）逐步划分数据，生成树状结构。	可解释性极强（能可视化决策过程），无需特征归一化。	中小型数据集、需要明确决策依据的场景（如信贷审批）。
随机森林	集成多个独立决策树，通过 "投票" 确定最终类别（分类）或 "平均" 确定结果（回归），降低单棵树的过拟合风险。	鲁棒性强（抗噪声、抗过拟合），对异常值不敏感。	中大型数据集、高维度数据（如用户行为分类、图像特征分类）。
支持向量机（SVM）	寻找 "最优分隔超平面"，使两类数据到超平面的 "间隔最大"，可通过核函数处理非线性数据。	小样本下效果好，泛化能力强，适合高维数据（如文本分类）。	文本分类（如情感分析）、图像识别（早期应用广泛）、小样本分类任务。
K 近邻（KNN）	无 "训练过程"，预测时找待预测样本的 "K 个最近邻居"，按邻居的类别多数投票确定自身类别。	实现简单，无需训练，对数据分布无假设。	小型数据集、低维数据（如手写数字识别、简单的推荐初筛）。
朴素贝叶斯	基于 "贝叶斯定理" 和 "特征条件独立假设"，通过计算后验概率判断类别。	训练速度极快，内存占用小，适合高维稀疏数据。	文本分类（如垃圾邮件、新闻分类）、拼写纠错、推荐系统初筛。

1.2. 回归算法（解决 "数值预测" 问题）

适用于房价预测、销量预估、气温预测等场景，目标是输出连续的数值结果。

算法名称	核心原理	优势	适用场景
线性回归	假设输入特征与输出之间呈线性关系，通过最小化 "预测值与真实值的平方误差" 找到最优线性方程（y = wx + b）。	模型最简单、可解释性极强，能明确特征对输出的影响（如 "面积每增加 1㎡，房价平均涨 5000 元"）。	特征与输出线性相关的场景（如简单房价预测、销量与广告投入的关系预测）。
岭回归（Ridge）	在线性回归基础上加入 "L2 正则化"（惩罚系数 w 的平方和），防止模型过拟合。	解决多重共线性问题（如多个高度相关的特征），提升模型泛化能力。	特征间存在相关性的回归任务（如经济指标预测、多因素影响的销量预测）。
Lasso 回归	在线性回归基础上加入 "L1 正则化"（惩罚系数 w 的绝对值和），可自动实现特征选择（使部分 w=0）。	能筛选关键特征，简化模型，适合高维数据。	需要特征降维的回归任务（如基因数据预测、多变量环境指标预测）。
决策树回归	与分类决策树结构一致，但叶节点输出为 "该节点数据的均值"（而非类别），通过划分特征最小化误差。	可处理非线性关系，无需特征归一化，可解释性强。	特征与输出非线性相关的场景（如复杂房价预测、用户消费金额预测）。
随机森林回归	集成多个决策树回归器，最终结果为所有树预测值的 "平均值"，降低单棵树的过拟合风险。	鲁棒性强，对异常值不敏感，适合复杂非线性数据。	中大型数据集、复杂回归任务（如股票价格预测、商品销量精准预估）。

二、无监督学习

无监督学习算法核心是从无标签数据 中挖掘内在结构（如聚类、关联、降维），无需人工定义输出目标，主要分为聚类算法 、降维算法 和关联规则学习三大类

2.1. 聚类算法（核心：按 "相似性" 自动分组）

目标是将数据划分为多个 "簇"（Cluster），同一簇内数据相似度高，不同簇间相似度低，是无监督学习最典型的应用。

算法名称	核心原理	优势	适用场景
K 均值聚类（K-Means）	1. 预先指定簇数 K；2. 随机初始化 K 个 "簇中心"；3. 迭代将样本分配到最近的簇中心，更新簇中心为该簇样本均值；4. 直至簇中心稳定。	实现简单、计算效率高，适合大规模数据。	需明确簇数的场景：用户分群（如电商高 / 中 / 低价值用户）、图像颜色 quantization（压缩色彩）、文档主题分组。
层次聚类（Hierarchical Clustering）	两种思路： - 凝聚式：从单个样本开始，逐步合并相似的簇； - 分裂式：从所有样本为一个簇开始，逐步拆分。最终形成 "树状图（Dendrogram）"，可自由选择簇数。	无需预先指定 K，结果直观（树状图可解释），适合小样本分析。	无需确定簇数的场景：生物进化树构建、客户分层分析、小数据集的类别探索（如科研样本分组）。
DBSCAN	基于 "密度" 划分簇：定义 "核心样本"（周围 ε 距离内有≥MinPts 个样本），通过核心样本连接形成簇，孤立样本（非核心且无核心邻居）视为异常值。	无需指定 K，能自动识别任意形状的簇（如环形、非凸簇），可同时检测异常值。	簇形状不规则、含异常值的场景：地理位置聚类（如城市商圈划分）、异常行为检测（如设备故障数据）、传感器数据聚类。
高斯混合模型（GMM）	假设数据由多个 "高斯分布"（正态分布）混合生成，通过概率模型计算每个样本属于不同高斯分布的概率，按最大概率分配簇。	输出 "概率" 而非硬分配（如样本 A 有 70% 概率属于簇 1，30% 属于簇 2），对数据分布假设更灵活。	需概率化聚类结果的场景：用户行为概率分群、图像分割、金融数据分布分析。

2.2. 降维算法（核心：简化数据，保留关键信息）

目标是在减少特征维度（如从 100 维降至 2 维）的同时，尽可能保留数据的核心结构（如距离、相关性），解决 "维度灾难"（高维数据计算量大、冗余多）。

算法名称	核心原理	优势	适用场景
主成分分析（PCA）	找到数据中 "方差最大的方向"（主成分），将数据投影到这些主成分上，用少数主成分替代原高维特征（方差越大，包含信息越多）。	线性降维的 "基准算法"，计算高效，可解释性较强（主成分可对应物理意义）。	高维数据可视化（如将 100 维图像特征降为 2D 展示）、数据预处理（如降维后再输入分类模型）、去除数据冗余（如传感器多维度数据压缩）。
t - 分布邻域嵌入（t-SNE）	基于 "概率分布" 降维：先在高维空间计算样本间的相似概率，再在低维空间优化分布，使低维概率尽可能匹配高维概率，重点保留 "局部结构"（近邻关系）。	降维后的数据聚类效果更直观，尤其适合可视化高维非线性数据。	高维数据可视化（如 MNIST 手写数字、人脸图像特征降维展示）、聚类结果验证（降维后观察簇是否清晰分离）。
自编码器（Autoencoder）	一种神经网络模型：输入高维数据→通过 "编码器" 压缩为低维向量（ latent code ）→通过 "解码器" 重构回原数据，训练目标是最小化重构误差，低维向量即为降维结果。	可处理非线性数据，降维能力灵活（通过调整网络结构适配复杂数据）。	复杂高维数据降维（如文本 Embedding 压缩、图像特征提取、推荐系统用户 / 物品向量压缩）。

2.3. 关联规则学习（核心：挖掘数据间的 "关联关系"）

目标是发现数据中 "频繁出现的组合"（如 "买面包的用户 80% 会买牛奶"），核心应用于零售、推荐等场景。

算法名称	核心原理	优势	适用场景
Apriori 算法	1. 找出 "频繁项集"（出现次数≥最小支持度的物品组合，如 {面包，牛奶}）；2. 从频繁项集中提取 "关联规则"（满足最小置信度，如 {面包}→{牛奶}，置信度 = 买面包且买牛奶的次数 / 买面包的次数）。	原理直观，易理解，是关联规则的基础算法。	零售购物篮分析（如超市商品关联推荐）、网页点击路径分析（如用户看 A 页面后常看 B 页面）、医疗症状关联挖掘（如症状 A+B 常伴随疾病 C）。
FP-Growth 算法	改进 Apriori 的效率问题：通过构建 "FP 树"（频繁模式树），将所有频繁项集压缩到树结构中，无需多次扫描数据即可挖掘频繁项集，避免生成大量候选集。	计算效率远高于 Apriori，适合大规模数据。	大规模零售数据、高频用户行为数据的关联规则挖掘（如电商平台亿级用户的购物篮分析）。

三、半监督学习

半监督学习算法的核心是结合少量带标签数据 和大量无标签数据提升模型性能，核心思路可分为 "利用无标签数据辅助标注" 和 "通过一致性假设优化模型" 两类。

3.1 生成式模型（核心：建模数据整体分布）

假设所有数据（标签 + 无标签）都来自同一概率分布，通过无标签数据优化分布模型，再基于模型推断无标签数据的标签，典型代表为高斯混合模型（GMM） 和隐马尔可夫模型（HMM）。

算法名称	核心原理	优势	适用场景
半监督高斯混合模型（Semi-supervised GMM）	1. 基于少量带标签数据初始化多个高斯分布（对应不同类别）；2. 用大量无标签数据迭代优化分布参数（如均值、方差），使模型更贴合整体数据分布；3. 对无标签数据，按其属于各分布的概率分配标签。	能利用数据分布特性提升标签推断精度，对符合高斯分布的数据效果好。	数据近似正态分布的场景：用户行为分群（少量标注用户 + 大量未标注用户）、生物样本分类（如基因数据聚类）。
半监督隐马尔可夫模型（Semi-supervised HMM）	1. HMM 用于序列数据（如文本、语音），包含 "状态（如词性）" 和 "观测（如单词）"；2. 用少量带标签序列初始化模型参数（状态转移概率、观测概率）；3. 用大量无标签序列通过 EM 算法优化参数，提升序列标注精度。	适配序列数据，能挖掘时序依赖关系，优化标签预测的连贯性。	序列数据标注：半监督词性标注（少量标注句子 + 大量未标注文本）、语音识别（少量标注语音 + 大量原始语音）。

3.2. 自训练与协同训练（核心："伪标签" 迭代优化）

通过模型自身预测无标签数据的 "伪标签"（高置信度预测结果），将其转化为 "带标签数据" 补充训练集，迭代提升模型性能，分为单模型自训练和多模型协同训练。

算法名称	核心原理	优势	适用场景
自训练（Self-Training）	1. 用少量带标签数据训练初始模型；2. 用模型预测无标签数据，筛选 "置信度≥阈值" 的样本（如预测概率 > 0.9），将其与伪标签加入训练集；3. 用新训练集重新训练模型，重复迭代至收敛。	实现简单，无需复杂模型结构，可适配任意监督学习基模型（如 SVM、决策树）。	标签稀缺但数据易获取的场景：文本分类（少量标注文章 + 大量新闻语料）、图像识别（少量标注图 + 大量风景 / 动物原图）。
协同训练（Co-Training）	1. 假设数据有两个独立的 "视图"（如文本的 "标题" 和 "正文"、图像的 "颜色特征" 和 "形状特征"）；2. 分别用两个视图训练两个基模型（Model A 和 Model B）；3. Model A 用高置信度伪标签标注无标签数据，反馈给 Model B 的训练集；反之 Model B 也反馈给 Model A；4. 迭代优化两个模型，最终融合结果。	利用数据多视图的独立性，降低伪标签误差，比自训练更鲁棒。	数据可拆分多独立视图的场景：文本分类（标题 + 正文双视图）、视频分析（帧图像 + 音频双视图）、推荐系统（用户行为 + 物品属性双视图）。

3.3. 基于图的半监督学习（核心：挖掘数据 "关联结构"）

将所有数据（标签 + 无标签）构建为图（样本为节点，样本间相似度为边权重），假设 "相邻节点标签相似"（平滑假设），通过标签在图上的 "传播"，为无标签节点分配标签。

算法名称	核心原理	优势	适用场景
标签传播算法（Label Propagation Algorithm, LPA）	1. 构建图：节点 = 样本，边权重 = 样本相似度（如余弦相似度、欧氏距离倒数）；2. 初始时，带标签节点保留真实标签，无标签节点标签为 "未定义"；3. 迭代更新：每个无标签节点的标签 = 其相邻节点中 "出现频率最高" 的标签（权重越高的邻居影响越大）；4. 迭代至标签不再变化，输出无标签节点的最终标签。	完全依赖数据结构，无需复杂计算，可解释性强（标签传播路径清晰）。	样本间关联明确的场景：社交网络用户分群（用户为节点，好友关系为边）、文档聚类（文档为节点，内容相似度为边）、小样本图像分类。
标签松弛算法（Label Spreading Algorithm, LSA）	对 LPA 的改进：不直接分配 "硬标签"，而是计算每个无标签节点属于各类别的 "概率"（软标签）；迭代时，节点的概率 = 邻居节点概率的加权平均（权重为边权重）；最终按最大概率确定标签，降低噪声干扰。	比 LPA 更鲁棒（抗噪声、避免局部最优），结果更平滑。	数据含少量噪声的场景：传感器数据分类（如温度 / 湿度传感器故障检测，少量标注正常 / 故障数据 + 大量实时数据）、带有噪声的文本语料分类。

3.4. 半监督支持向量机（核心：优化 "分类边界"）

在传统 SVM "最大化分类间隔" 的基础上，利用无标签数据调整分类边界，使边界更贴合数据分布（避开无标签数据密集区域）。

算法名称	核心原理	优势	适用场景
半监督 SVM（Semi-supervised SVM, S3VM）	1. 传统 SVM 用带标签数据找最优超平面；2. S3VM 额外引入 "无标签数据约束"：假设无标签数据大概率位于 "分类边界两侧的安全区域"，优化目标变为 "最大化间隔 + 最小化无标签数据到超平面的误分类风险"；3. 通过拉格朗日乘数法求解带约束的优化问题。	继承 SVM 的高泛化能力，能利用无标签数据优化边界，适合高维数据。	高维小样本场景：文本分类（如法律文档分类，少量标注 + 大量法规文本）、图像特征分类（如卫星图像地物识别）。

四、强化学习

强化学习算法围绕 "智能体（Agent）通过与环境交互试错、最大化长期奖励" 设计，核心按价值函数（Value-Based） 、策略函数（Policy-Based） 、 Actor-Critic 框架 及 **免模型 / 有模型 ** 四大维度划分

4.1. 按核心学习对象分类（最常用维度）

4.1.1. 价值函数类（Value-Based）

核心是学习 "状态（或状态 - 动作对）的价值"，即该状态 / 动作能带来的长期奖励期望，通过价值指导动作选择（如选价值最高的动作）。

算法名称	核心原理	优势	适用场景
Q-Learning	学习 "状态 - 动作对（s,a）" 的价值（Q 值），更新规则为：Q (s,a) = Q (s,a) + α[r + γ・maxₐ'Q (s',a') - Q (s,a)]（α= 学习率，γ= 折扣因子，r = 即时奖励，s'= 下一状态）。采用 "离线学习"（目标 Q 值与当前策略无关），保证收敛性。	实现简单，无需环境模型，适合离散动作空间，理论收敛性有保障。	离散动作场景：迷宫导航、简单游戏（如 Flappy Bird）、机器人基础控制（如开关电机）。
SARSA	与 Q-Learning 类似，但更新规则为 "在线学习"：Q (s,a) = Q (s,a) + α[r + γ・Q (s',a') - Q (s,a)]，其中 a'是当前策略在 s'下实际选择的动作（而非 maxₐ'Q），更注重 "策略安全性"（避免冒险动作）。	学习过程更贴合实际执行的策略，能减少高风险动作，稳定性更强。	需避免试错风险的场景：机器人避障（避免碰撞）、自动驾驶低速场景（减少急刹 / 变道风险）。
Deep Q-Network（DQN）	用深度神经网络替代传统 Q-Learning 的 "Q 表"（解决高维状态空间问题），核心改进： - 经验回放（Replay Buffer）：随机采样历史数据，打破数据相关性； - 目标网络（Target Network）：固定目标 Q 值更新频率，避免训练震荡。	能处理高维状态（如图像），拓展 Q-Learning 的适用范围，是深度强化学习的基础。	高维状态 + 离散动作场景：Atari 游戏（如打砖块、太空侵略者）、图像识别类控制（如基于摄像头的机器人导航）。
DQN 改进算法（Double DQN、Dueling DQN）	- Double DQN ：拆分 "动作选择" 和 "价值评估"（用当前网络选动作，目标网络评价值），解决 DQN 高估 Q 值的问题； - Dueling DQN：将 Q 值拆分为 "状态价值（V (s)）" 和 "动作优势（A (s,a)）"，更精准评估状态本身价值，提升泛化能力。	比基础 DQN 更稳定、评估更精准，减少训练偏差。	复杂 Atari 游戏、需要精准价值评估的场景（如多目标机器人控制）。

4.1.2. 策略函数类（Policy-Based）

直接学习 "策略函数 π(a|s)"（给定状态 s 时选择动作 a 的概率分布），无需通过价值函数间接指导，更适合连续动作空间（如控制机器人关节角度、汽车油门开度）。

算法名称	核心原理	优势	适用场景
策略梯度（Policy Gradient, PG）	核心是 "沿着奖励期望提升的方向更新策略参数"：计算策略的 "目标函数"（累积奖励期望），通过梯度上升最大化目标函数，更新公式为：θ ← θ + α・∇θJ (θ)（J (θ) 为目标函数，∇θ 为梯度）。	天然支持连续动作空间，策略输出为概率分布，能实现 "随机探索"（避免陷入局部最优）。	连续动作场景：机器人关节控制（如机械臂抓取力度）、自动驾驶油门 / 方向盘控制、无人机飞行姿态调整。
优势演员 - 评论员（Advantage Actor-Critic, A2C）	属于Actor-Critic 框架（结合 Policy 和 Value）： Actor（演员）：学习策略 π(a\|s)，负责选动作； Critic（评论员）：学习价值函数 V (s)，计算 "优势函数 A (s,a) = r + γV (s') - V (s)"（衡量动作 a 比平均水平好多少），用 A (s,a) 指导 Actor 更新，减少 PG 的方差。	比纯 PG 方差小、训练更稳定，比纯 Value-Based 算法更适合连续动作。	中复杂度连续动作场景：机器人运动控制、简单机械臂操作、竞速游戏 AI（如赛车油门 / 转向）。
异步优势演员 - 评论员（Asynchronous A2C, A3C）	对 A2C 的改进：用多个并行智能体同时与环境交互，各自收集数据并独立计算梯度，再异步更新到全局模型，无需经验回放，提升训练效率和探索多样性。	训练速度快，探索更充分，适合多线程计算环境。	复杂连续动作场景：3D 游戏控制（如 Unity 环境中的角色移动）、多机器人协同简单任务。

4.1.3. 深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）

专为高维连续动作空间设计的 Actor-Critic 算法，核心改进：

确定性策略：Actor 输出 "确定的最优动作"（而非概率分布），再加入少量噪声用于探索；
目标网络与经验回放：继承 DQN 的思路，用目标 Actor/Critic 网络和经验回放，保证训练稳定。

核心优势	适用场景
1. 处理高维连续动作（如 20 维机器人关节控制）； 2. 训练稳定，无需复杂概率计算。	高复杂度连续控制场景：机械臂精密抓取、人形机器人步态控制、自动驾驶多参数调节（油门 / 刹车 / 转向协同）。

4.2. 按是否依赖环境模型分类

4.2.1. 免模型强化学习（Model-Free RL）

无需预先知道环境的 "状态转移概率" 和 "奖励函数"，智能体直接通过与环境交互试错学习，是目前应用最广的类型（上述 Q-Learning、DQN、A2C、DDPG 均属此类）。

特点：灵活性高，无需环境先验知识，但样本效率低（需大量交互数据）。
适用场景：环境模型难以构建的场景（如真实物理世界、复杂游戏）。

4.2.2. 有模型强化学习（Model-Based RL）

先通过数据学习 "环境模型"（预测 s→s'的转移概率和奖励 r），再基于模型模拟交互、规划最优动作（如 MCTS 蒙特卡洛树搜索）。

代表算法：蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS），常与深度学习结合（如 AlphaGo 的核心算法）。
特点：样本效率高（可在模型内模拟训练），但模型精度依赖数据，误差可能累积。
适用场景：环境模型可精准构建的场景：围棋 / 象棋等棋盘游戏（AlphaGo）、确定性物理仿真环境（如机器人仿真训练）。

4.3. 其他重要算法

算法名称	核心特点	适用场景
软 actor - 评论员（Soft Actor-Critic, SAC）	基于 DDPG 改进，核心是 "最大化熵正则化的奖励期望"（鼓励探索多样性），训练更稳定、样本效率更高，是当前连续控制的主流算法之一。	高难度连续控制场景：四足机器人动态行走、无人机复杂特技动作、工业机械臂高精度装配。
近端策略优化（Proximal Policy Optimization, PPO）	简化的 Policy-Based 算法，核心是 "限制策略更新的幅度"（通过裁剪目标函数，使新策略与旧策略差异不超过阈值），训练稳定、实现简单，是目前最常用的强化学习算法之一。	通用性极强，适合各类场景：游戏 AI（如《英雄联盟》AI）、机器人控制、推荐系统（用户点击奖励优化）。

五、神经网络

卷积神经网络（CNN） ：专为网格数据（如图像、视频帧）设计，通过 "卷积层" 提取局部特征（如图像的空间关联性），广泛用于图像分类、目标检测、人脸识别。
循环神经网络（RNN/LSTM/GRU） ：专为序列数据（如文本、语音、时间序列）设计，通过 "循环结构" 捕捉数据的时序依赖（如文本的上下文关系、语音的前后音调），用于机器翻译、语音识别、股价预测。
Transformer：基于 "自注意力机制"，能并行处理序列数据（解决 RNN 的效率问题），可捕捉长距离依赖关系，是当前自然语言处理（NLP，如 ChatGPT）、多模态任务（如图文生成）的核心模型。
生成对抗网络（GAN）：由 "生成器" 和 "判别器" 两个网络对抗训练，生成器负责生成逼真数据（如假图像、假文本），判别器负责区分真假，用于 AI 绘画（如 MidJourney）、图像修复、数据增强。