目录
-
- 机器学习按学习方式分类(核心维度)
- 一、监督学习
-
- [1.1. 分类算法(解决 "类别预测" 问题)](#1.1. 分类算法(解决 “类别预测” 问题))
- [1.2. 回归算法(解决 "数值预测" 问题)](#1.2. 回归算法(解决 “数值预测” 问题))
- 二、无监督学习
-
- [2.1. 聚类算法(核心:按 "相似性" 自动分组)](#2.1. 聚类算法(核心:按 “相似性” 自动分组))
- [2.2. 降维算法(核心:简化数据,保留关键信息)](#2.2. 降维算法(核心:简化数据,保留关键信息))
- [2.3. 关联规则学习(核心:挖掘数据间的 "关联关系")](#2.3. 关联规则学习(核心:挖掘数据间的 “关联关系”))
- 三、半监督学习
-
- [3.1 生成式模型(核心:建模数据整体分布)](#3.1 生成式模型(核心:建模数据整体分布))
- [3.2. 自训练与协同训练(核心:"伪标签" 迭代优化)](#3.2. 自训练与协同训练(核心:“伪标签” 迭代优化))
- [3.3. 基于图的半监督学习(核心:挖掘数据 "关联结构")](#3.3. 基于图的半监督学习(核心:挖掘数据 “关联结构”))
- [3.4. 半监督支持向量机(核心:优化 "分类边界")](#3.4. 半监督支持向量机(核心:优化 “分类边界”))
- 四、强化学习
-
- [4.1. 按核心学习对象分类(最常用维度)](#4.1. 按核心学习对象分类(最常用维度))
-
- [4.1.1. 价值函数类(Value-Based)](#4.1.1. 价值函数类(Value-Based))
- [4.1.2. 策略函数类(Policy-Based)](#4.1.2. 策略函数类(Policy-Based))
- [4.1.3. 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)](#4.1.3. 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG))
- [4.2. 按是否依赖环境模型分类](#4.2. 按是否依赖环境模型分类)
-
- [4.2.1. 免模型强化学习(Model-Free RL)](#4.2.1. 免模型强化学习(Model-Free RL))
- [4.2.2. 有模型强化学习(Model-Based RL)](#4.2.2. 有模型强化学习(Model-Based RL))
- [4.3. 其他重要算法](#4.3. 其他重要算法)
- 五、神经网络
- 如果这篇文章对你有所帮助,渴望获得你的一个点赞!
机器学习(Machine Learning, ML)是人工智能(AI)的核心分支,其核心目标是让计算机通过 "学习数据中的规律" 自动改进性能,无需人工编写具体规则,最终实现 "预测、分类、决策" 等智能化任务。简单来说,机器学习让计算机具备 "从经验中学习" 的能力,就像人类通过观察和实践积累知识一样。
机器学习按学习方式分类(核心维度)
分类 | 核心特点 | 关键场景示例 |
---|---|---|
监督学习 | 用 "带标签" 的数据训练(输入→已知输出),目标是学习输入到输出的映射关系。 | 垃圾邮件识别(邮件→"垃圾 / 正常" 标签)、房价预测(面积 / 地段→价格) |
无监督学习 | 用 "无标签" 的数据训练,目标是挖掘数据本身的内在结构(如聚类、规律)。 | 用户分群(无标签用户→按行为聚类)、异常检测(识别数据中的 "异类") |
半监督学习 | 结合 "少量带标签数据" 和 "大量无标签数据" 训练,平衡数据成本与模型效果。 | 文本分类(少量标注文章 + 大量未标注文章)、图像识别(少量标注图 + 大量原图) |
强化学习 | 模型通过与环境 "交互试错" 学习:执行动作→获得奖励 / 惩罚→调整策略,目标是最大化长期奖励。 | 机器人导航、AlphaGo(围棋对战)、游戏 AI(如王者荣耀 AI) |
一、监督学习
监督学习算法围绕 "从带标签数据中学习输入到输出的映射" 设计,核心分为分类算法 (输出离散类别)和回归算法(输出连续数值)
1.1. 分类算法(解决 "类别预测" 问题)
适用于垃圾邮件识别、疾病诊断、图像分类等场景,目标是将数据划分到预设类别中。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
逻辑回归 | 基于线性模型,通过 Sigmoid 函数将输出映射到 [0,1],判断类别概率。 | 模型简单、可解释性强,易训练和部署。 | 二分类问题(如 "患病 / 健康"、"垃圾 / 正常邮件")。 |
决策树 | 模拟人类决策逻辑,通过 "特征判断节点"(如 "年龄 > 30?")逐步划分数据,生成树状结构。 | 可解释性极强(能可视化决策过程),无需特征归一化。 | 中小型数据集、需要明确决策依据的场景(如信贷审批)。 |
随机森林 | 集成多个独立决策树,通过 "投票" 确定最终类别(分类)或 "平均" 确定结果(回归),降低单棵树的过拟合风险。 | 鲁棒性强(抗噪声、抗过拟合),对异常值不敏感。 | 中大型数据集、高维度数据(如用户行为分类、图像特征分类)。 |
支持向量机(SVM) | 寻找 "最优分隔超平面",使两类数据到超平面的 "间隔最大",可通过核函数处理非线性数据。 | 小样本下效果好,泛化能力强,适合高维数据(如文本分类)。 | 文本分类(如情感分析)、图像识别(早期应用广泛)、小样本分类任务。 |
K 近邻(KNN) | 无 "训练过程",预测时找待预测样本的 "K 个最近邻居",按邻居的类别多数投票确定自身类别。 | 实现简单,无需训练,对数据分布无假设。 | 小型数据集、低维数据(如手写数字识别、简单的推荐初筛)。 |
朴素贝叶斯 | 基于 "贝叶斯定理" 和 "特征条件独立假设",通过计算后验概率判断类别。 | 训练速度极快,内存占用小,适合高维稀疏数据。 | 文本分类(如垃圾邮件、新闻分类)、拼写纠错、推荐系统初筛。 |
1.2. 回归算法(解决 "数值预测" 问题)
适用于房价预测、销量预估、气温预测等场景,目标是输出连续的数值结果。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
线性回归 | 假设输入特征与输出之间呈线性关系,通过最小化 "预测值与真实值的平方误差" 找到最优线性方程(y = wx + b)。 | 模型最简单、可解释性极强,能明确特征对输出的影响(如 "面积每增加 1㎡,房价平均涨 5000 元")。 | 特征与输出线性相关的场景(如简单房价预测、销量与广告投入的关系预测)。 |
岭回归(Ridge) | 在线性回归基础上加入 "L2 正则化"(惩罚系数 w 的平方和),防止模型过拟合。 | 解决多重共线性问题(如多个高度相关的特征),提升模型泛化能力。 | 特征间存在相关性的回归任务(如经济指标预测、多因素影响的销量预测)。 |
Lasso 回归 | 在线性回归基础上加入 "L1 正则化"(惩罚系数 w 的绝对值和),可自动实现特征选择(使部分 w=0)。 | 能筛选关键特征,简化模型,适合高维数据。 | 需要特征降维的回归任务(如基因数据预测、多变量环境指标预测)。 |
决策树回归 | 与分类决策树结构一致,但叶节点输出为 "该节点数据的均值"(而非类别),通过划分特征最小化误差。 | 可处理非线性关系,无需特征归一化,可解释性强。 | 特征与输出非线性相关的场景(如复杂房价预测、用户消费金额预测)。 |
随机森林回归 | 集成多个决策树回归器,最终结果为所有树预测值的 "平均值",降低单棵树的过拟合风险。 | 鲁棒性强,对异常值不敏感,适合复杂非线性数据。 | 中大型数据集、复杂回归任务(如股票价格预测、商品销量精准预估)。 |
二、无监督学习
无监督学习算法核心是从无标签数据 中挖掘内在结构(如聚类、关联、降维),无需人工定义输出目标,主要分为聚类算法 、降维算法 和关联规则学习三大类
2.1. 聚类算法(核心:按 "相似性" 自动分组)
目标是将数据划分为多个 "簇"(Cluster),同一簇内数据相似度高,不同簇间相似度低,是无监督学习最典型的应用。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
K 均值聚类(K-Means) | 1. 预先指定簇数 K;2. 随机初始化 K 个 "簇中心";3. 迭代将样本分配到最近的簇中心,更新簇中心为该簇样本均值;4. 直至簇中心稳定。 | 实现简单、计算效率高,适合大规模数据。 | 需明确簇数的场景:用户分群(如电商高 / 中 / 低价值用户)、图像颜色 quantization(压缩色彩)、文档主题分组。 |
层次聚类(Hierarchical Clustering) | 两种思路: - 凝聚式 :从单个样本开始,逐步合并相似的簇; - 分裂式:从所有样本为一个簇开始,逐步拆分。最终形成 "树状图(Dendrogram)",可自由选择簇数。 | 无需预先指定 K,结果直观(树状图可解释),适合小样本分析。 | 无需确定簇数的场景:生物进化树构建、客户分层分析、小数据集的类别探索(如科研样本分组)。 |
DBSCAN | 基于 "密度" 划分簇:定义 "核心样本"(周围 ε 距离内有≥MinPts 个样本),通过核心样本连接形成簇,孤立样本(非核心且无核心邻居)视为异常值。 | 无需指定 K,能自动识别任意形状的簇(如环形、非凸簇),可同时检测异常值。 | 簇形状不规则、含异常值的场景:地理位置聚类(如城市商圈划分)、异常行为检测(如设备故障数据)、传感器数据聚类。 |
高斯混合模型(GMM) | 假设数据由多个 "高斯分布"(正态分布)混合生成,通过概率模型计算每个样本属于不同高斯分布的概率,按最大概率分配簇。 | 输出 "概率" 而非硬分配(如样本 A 有 70% 概率属于簇 1,30% 属于簇 2),对数据分布假设更灵活。 | 需概率化聚类结果的场景:用户行为概率分群、图像分割、金融数据分布分析。 |
2.2. 降维算法(核心:简化数据,保留关键信息)
目标是在减少特征维度(如从 100 维降至 2 维)的同时,尽可能保留数据的核心结构(如距离、相关性),解决 "维度灾难"(高维数据计算量大、冗余多)。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
主成分分析(PCA) | 找到数据中 "方差最大的方向"(主成分),将数据投影到这些主成分上,用少数主成分替代原高维特征(方差越大,包含信息越多)。 | 线性降维的 "基准算法",计算高效,可解释性较强(主成分可对应物理意义)。 | 高维数据可视化(如将 100 维图像特征降为 2D 展示)、数据预处理(如降维后再输入分类模型)、去除数据冗余(如传感器多维度数据压缩)。 |
t - 分布邻域嵌入(t-SNE) | 基于 "概率分布" 降维:先在高维空间计算样本间的相似概率,再在低维空间优化分布,使低维概率尽可能匹配高维概率,重点保留 "局部结构"(近邻关系)。 | 降维后的数据聚类效果更直观,尤其适合可视化高维非线性数据。 | 高维数据可视化(如 MNIST 手写数字、人脸图像特征降维展示)、聚类结果验证(降维后观察簇是否清晰分离)。 |
自编码器(Autoencoder) | 一种神经网络模型:输入高维数据→通过 "编码器" 压缩为低维向量( latent code )→通过 "解码器" 重构回原数据,训练目标是最小化重构误差,低维向量即为降维结果。 | 可处理非线性数据,降维能力灵活(通过调整网络结构适配复杂数据)。 | 复杂高维数据降维(如文本 Embedding 压缩、图像特征提取、推荐系统用户 / 物品向量压缩)。 |
2.3. 关联规则学习(核心:挖掘数据间的 "关联关系")
目标是发现数据中 "频繁出现的组合"(如 "买面包的用户 80% 会买牛奶"),核心应用于零售、推荐等场景。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
Apriori 算法 | 1. 找出 "频繁项集"(出现次数≥最小支持度的物品组合,如 {面包,牛奶});2. 从频繁项集中提取 "关联规则"(满足最小置信度,如 {面包}→{牛奶},置信度 = 买面包且买牛奶的次数 / 买面包的次数)。 | 原理直观,易理解,是关联规则的基础算法。 | 零售购物篮分析(如超市商品关联推荐)、网页点击路径分析(如用户看 A 页面后常看 B 页面)、医疗症状关联挖掘(如症状 A+B 常伴随疾病 C)。 |
FP-Growth 算法 | 改进 Apriori 的效率问题:通过构建 "FP 树"(频繁模式树),将所有频繁项集压缩到树结构中,无需多次扫描数据即可挖掘频繁项集,避免生成大量候选集。 | 计算效率远高于 Apriori,适合大规模数据。 | 大规模零售数据、高频用户行为数据的关联规则挖掘(如电商平台亿级用户的购物篮分析)。 |
三、半监督学习
半监督学习算法的核心是结合少量带标签数据 和大量无标签数据提升模型性能,核心思路可分为 "利用无标签数据辅助标注" 和 "通过一致性假设优化模型" 两类。
3.1 生成式模型(核心:建模数据整体分布)
假设所有数据(标签 + 无标签)都来自同一概率分布,通过无标签数据优化分布模型,再基于模型推断无标签数据的标签,典型代表为高斯混合模型(GMM) 和隐马尔可夫模型(HMM)。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
半监督高斯混合模型(Semi-supervised GMM) | 1. 基于少量带标签数据初始化多个高斯分布(对应不同类别);2. 用大量无标签数据迭代优化分布参数(如均值、方差),使模型更贴合整体数据分布;3. 对无标签数据,按其属于各分布的概率分配标签。 | 能利用数据分布特性提升标签推断精度,对符合高斯分布的数据效果好。 | 数据近似正态分布的场景:用户行为分群(少量标注用户 + 大量未标注用户)、生物样本分类(如基因数据聚类)。 |
半监督隐马尔可夫模型(Semi-supervised HMM) | 1. HMM 用于序列数据(如文本、语音),包含 "状态(如词性)" 和 "观测(如单词)";2. 用少量带标签序列初始化模型参数(状态转移概率、观测概率);3. 用大量无标签序列通过 EM 算法优化参数,提升序列标注精度。 | 适配序列数据,能挖掘时序依赖关系,优化标签预测的连贯性。 | 序列数据标注:半监督词性标注(少量标注句子 + 大量未标注文本)、语音识别(少量标注语音 + 大量原始语音)。 |
3.2. 自训练与协同训练(核心:"伪标签" 迭代优化)
通过模型自身预测无标签数据的 "伪标签"(高置信度预测结果),将其转化为 "带标签数据" 补充训练集,迭代提升模型性能,分为单模型自训练和多模型协同训练。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
自训练(Self-Training) | 1. 用少量带标签数据训练初始模型;2. 用模型预测无标签数据,筛选 "置信度≥阈值" 的样本(如预测概率 > 0.9),将其与伪标签加入训练集;3. 用新训练集重新训练模型,重复迭代至收敛。 | 实现简单,无需复杂模型结构,可适配任意监督学习基模型(如 SVM、决策树)。 | 标签稀缺但数据易获取的场景:文本分类(少量标注文章 + 大量新闻语料)、图像识别(少量标注图 + 大量风景 / 动物原图)。 |
协同训练(Co-Training) | 1. 假设数据有两个独立的 "视图"(如文本的 "标题" 和 "正文"、图像的 "颜色特征" 和 "形状特征");2. 分别用两个视图训练两个基模型(Model A 和 Model B);3. Model A 用高置信度伪标签标注无标签数据,反馈给 Model B 的训练集;反之 Model B 也反馈给 Model A;4. 迭代优化两个模型,最终融合结果。 | 利用数据多视图的独立性,降低伪标签误差,比自训练更鲁棒。 | 数据可拆分多独立视图的场景:文本分类(标题 + 正文双视图)、视频分析(帧图像 + 音频双视图)、推荐系统(用户行为 + 物品属性双视图)。 |
3.3. 基于图的半监督学习(核心:挖掘数据 "关联结构")
将所有数据(标签 + 无标签)构建为图(样本为节点,样本间相似度为边权重),假设 "相邻节点标签相似"(平滑假设),通过标签在图上的 "传播",为无标签节点分配标签。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
标签传播算法(Label Propagation Algorithm, LPA) | 1. 构建图:节点 = 样本,边权重 = 样本相似度(如余弦相似度、欧氏距离倒数);2. 初始时,带标签节点保留真实标签,无标签节点标签为 "未定义";3. 迭代更新:每个无标签节点的标签 = 其相邻节点中 "出现频率最高" 的标签(权重越高的邻居影响越大);4. 迭代至标签不再变化,输出无标签节点的最终标签。 | 完全依赖数据结构,无需复杂计算,可解释性强(标签传播路径清晰)。 | 样本间关联明确的场景:社交网络用户分群(用户为节点,好友关系为边)、文档聚类(文档为节点,内容相似度为边)、小样本图像分类。 |
标签松弛算法(Label Spreading Algorithm, LSA) | 对 LPA 的改进:不直接分配 "硬标签",而是计算每个无标签节点属于各类别的 "概率"(软标签);迭代时,节点的概率 = 邻居节点概率的加权平均(权重为边权重);最终按最大概率确定标签,降低噪声干扰。 | 比 LPA 更鲁棒(抗噪声、避免局部最优),结果更平滑。 | 数据含少量噪声的场景:传感器数据分类(如温度 / 湿度传感器故障检测,少量标注正常 / 故障数据 + 大量实时数据)、带有噪声的文本语料分类。 |
3.4. 半监督支持向量机(核心:优化 "分类边界")
在传统 SVM "最大化分类间隔" 的基础上,利用无标签数据调整分类边界,使边界更贴合数据分布(避开无标签数据密集区域)。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
半监督 SVM(Semi-supervised SVM, S3VM) | 1. 传统 SVM 用带标签数据找最优超平面;2. S3VM 额外引入 "无标签数据约束":假设无标签数据大概率位于 "分类边界两侧的安全区域",优化目标变为 "最大化间隔 + 最小化无标签数据到超平面的误分类风险";3. 通过拉格朗日乘数法求解带约束的优化问题。 | 继承 SVM 的高泛化能力,能利用无标签数据优化边界,适合高维数据。 | 高维小样本场景:文本分类(如法律文档分类,少量标注 + 大量法规文本)、图像特征分类(如卫星图像地物识别)。 |
四、强化学习
强化学习算法围绕 "智能体(Agent)通过与环境交互试错、最大化长期奖励" 设计,核心按价值函数(Value-Based) 、策略函数(Policy-Based) 、 Actor-Critic 框架 及 **免模型 / 有模型 ** 四大维度划分
4.1. 按核心学习对象分类(最常用维度)
4.1.1. 价值函数类(Value-Based)
核心是学习 "状态(或状态 - 动作对)的价值",即该状态 / 动作能带来的长期奖励期望,通过价值指导动作选择(如选价值最高的动作)。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
Q-Learning | 学习 "状态 - 动作对(s,a)" 的价值(Q 值),更新规则为:Q (s,a) = Q (s,a) + α[r + γ・maxₐ'Q (s',a') - Q (s,a)](α= 学习率,γ= 折扣因子,r = 即时奖励,s'= 下一状态)。采用 "离线学习"(目标 Q 值与当前策略无关),保证收敛性。 | 实现简单,无需环境模型,适合离散动作空间,理论收敛性有保障。 | 离散动作场景:迷宫导航、简单游戏(如 Flappy Bird)、机器人基础控制(如开关电机)。 |
SARSA | 与 Q-Learning 类似,但更新规则为 "在线学习":Q (s,a) = Q (s,a) + α[r + γ・Q (s',a') - Q (s,a)],其中 a'是当前策略在 s'下实际选择的动作(而非 maxₐ'Q),更注重 "策略安全性"(避免冒险动作)。 | 学习过程更贴合实际执行的策略,能减少高风险动作,稳定性更强。 | 需避免试错风险的场景:机器人避障(避免碰撞)、自动驾驶低速场景(减少急刹 / 变道风险)。 |
Deep Q-Network(DQN) | 用深度神经网络替代传统 Q-Learning 的 "Q 表"(解决高维状态空间问题),核心改进: - 经验回放(Replay Buffer):随机采样历史数据,打破数据相关性; - 目标网络(Target Network):固定目标 Q 值更新频率,避免训练震荡。 | 能处理高维状态(如图像),拓展 Q-Learning 的适用范围,是深度强化学习的基础。 | 高维状态 + 离散动作场景:Atari 游戏(如打砖块、太空侵略者)、图像识别类控制(如基于摄像头的机器人导航)。 |
DQN 改进算法(Double DQN、Dueling DQN) | - Double DQN :拆分 "动作选择" 和 "价值评估"(用当前网络选动作,目标网络评价值),解决 DQN 高估 Q 值的问题; - Dueling DQN:将 Q 值拆分为 "状态价值(V (s))" 和 "动作优势(A (s,a))",更精准评估状态本身价值,提升泛化能力。 | 比基础 DQN 更稳定、评估更精准,减少训练偏差。 | 复杂 Atari 游戏、需要精准价值评估的场景(如多目标机器人控制)。 |
4.1.2. 策略函数类(Policy-Based)
直接学习 "策略函数 π(a|s)"(给定状态 s 时选择动作 a 的概率分布),无需通过价值函数间接指导,更适合连续动作空间(如控制机器人关节角度、汽车油门开度)。
算法名称 | 核心原理 | 优势 | 适用场景 |
---|---|---|---|
策略梯度(Policy Gradient, PG) | 核心是 "沿着奖励期望提升的方向更新策略参数":计算策略的 "目标函数"(累积奖励期望),通过梯度上升最大化目标函数,更新公式为:θ ← θ + α・∇θJ (θ)(J (θ) 为目标函数,∇θ 为梯度)。 | 天然支持连续动作空间,策略输出为概率分布,能实现 "随机探索"(避免陷入局部最优)。 | 连续动作场景:机器人关节控制(如机械臂抓取力度)、自动驾驶油门 / 方向盘控制、无人机飞行姿态调整。 |
优势演员 - 评论员(Advantage Actor-Critic, A2C) | 属于Actor-Critic 框架 (结合 Policy 和 Value): Actor(演员) :学习策略 π(a|s),负责选动作; Critic(评论员):学习价值函数 V (s),计算 "优势函数 A (s,a) = r + γV (s') - V (s)"(衡量动作 a 比平均水平好多少),用 A (s,a) 指导 Actor 更新,减少 PG 的方差。 | 比纯 PG 方差小、训练更稳定,比纯 Value-Based 算法更适合连续动作。 | 中复杂度连续动作场景:机器人运动控制、简单机械臂操作、竞速游戏 AI(如赛车油门 / 转向)。 |
异步优势演员 - 评论员(Asynchronous A2C, A3C) | 对 A2C 的改进:用多个并行智能体同时与环境交互,各自收集数据并独立计算梯度,再异步更新到全局模型,无需经验回放,提升训练效率和探索多样性。 | 训练速度快,探索更充分,适合多线程计算环境。 | 复杂连续动作场景:3D 游戏控制(如 Unity 环境中的角色移动)、多机器人协同简单任务。 |
4.1.3. 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)
专为高维连续动作空间设计的 Actor-Critic 算法,核心改进:
- 确定性策略:Actor 输出 "确定的最优动作"(而非概率分布),再加入少量噪声用于探索;
- 目标网络与经验回放:继承 DQN 的思路,用目标 Actor/Critic 网络和经验回放,保证训练稳定。
核心优势 | 适用场景 |
---|---|
1. 处理高维连续动作(如 20 维机器人关节控制); 2. 训练稳定,无需复杂概率计算。 | 高复杂度连续控制场景:机械臂精密抓取、人形机器人步态控制、自动驾驶多参数调节(油门 / 刹车 / 转向协同)。 |
4.2. 按是否依赖环境模型分类
4.2.1. 免模型强化学习(Model-Free RL)
无需预先知道环境的 "状态转移概率" 和 "奖励函数",智能体直接通过与环境交互试错学习,是目前应用最广的类型(上述 Q-Learning、DQN、A2C、DDPG 均属此类)。
- 特点:灵活性高,无需环境先验知识,但样本效率低(需大量交互数据)。
- 适用场景:环境模型难以构建的场景(如真实物理世界、复杂游戏)。
4.2.2. 有模型强化学习(Model-Based RL)
先通过数据学习 "环境模型"(预测 s→s'的转移概率和奖励 r),再基于模型模拟交互、规划最优动作(如 MCTS 蒙特卡洛树搜索)。
- 代表算法:蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS),常与深度学习结合(如 AlphaGo 的核心算法)。
- 特点:样本效率高(可在模型内模拟训练),但模型精度依赖数据,误差可能累积。
- 适用场景:环境模型可精准构建的场景:围棋 / 象棋等棋盘游戏(AlphaGo)、确定性物理仿真环境(如机器人仿真训练)。
4.3. 其他重要算法
算法名称 | 核心特点 | 适用场景 |
---|---|---|
软 actor - 评论员(Soft Actor-Critic, SAC) | 基于 DDPG 改进,核心是 "最大化熵正则化的奖励期望"(鼓励探索多样性),训练更稳定、样本效率更高,是当前连续控制的主流算法之一。 | 高难度连续控制场景:四足机器人动态行走、无人机复杂特技动作、工业机械臂高精度装配。 |
近端策略优化(Proximal Policy Optimization, PPO) | 简化的 Policy-Based 算法,核心是 "限制策略更新的幅度"(通过裁剪目标函数,使新策略与旧策略差异不超过阈值),训练稳定、实现简单,是目前最常用的强化学习算法之一。 | 通用性极强,适合各类场景:游戏 AI(如《英雄联盟》AI)、机器人控制、推荐系统(用户点击奖励优化)。 |
五、神经网络
- 卷积神经网络(CNN) :专为网格数据(如图像、视频帧)设计,通过 "卷积层" 提取局部特征(如图像的空间关联性),广泛用于图像分类、目标检测、人脸识别。
- 循环神经网络(RNN/LSTM/GRU) :专为序列数据(如文本、语音、时间序列)设计,通过 "循环结构" 捕捉数据的时序依赖(如文本的上下文关系、语音的前后音调),用于机器翻译、语音识别、股价预测。
- Transformer:基于 "自注意力机制",能并行处理序列数据(解决 RNN 的效率问题),可捕捉长距离依赖关系,是当前自然语言处理(NLP,如 ChatGPT)、多模态任务(如图文生成)的核心模型。
- 生成对抗网络(GAN):由 "生成器" 和 "判别器" 两个网络对抗训练,生成器负责生成逼真数据(如假图像、假文本),判别器负责区分真假,用于 AI 绘画(如 MidJourney)、图像修复、数据增强。
如果这篇文章对你有所帮助,渴望获得你的一个点赞!
