将人工智能领域所有主流的"学习"范式,按照 "核心思想 -> 关键特点 -> 典型方法" 的提纲重新整合与梳理,并按当前流行度与应用广度进行排序。

第一梯队:基石与主流范式
1. 监督学习- "老师手把手教"
-
核心思想:利用已标注(输入-输出对)的数据集,学习从输入到输出的映射函数。
-
关键特点:
-
目标明确,直接优化预测准确性。
-
依赖大量高质量标注数据。
-
理论成熟,是大多数应用的基础。
-
-
典型方法:线性/逻辑回归、支持向量机、决策树、深度神经网络。
2. 无监督学习 - "自己整理图书馆"
-
核心思想:从未标注的数据中发现内在的结构、模式或分布,无需人工干预。
-
关键特点:
-
探索性分析,无明确预测目标。
-
处理海量无标签数据。
-
常用于数据预处理和理解。
-
-
典型方法:K-means/层次聚类、主成分分析、自编码器、关联规则。
3. 自监督学习- "自己出题考自己"
-
核心思想:从数据本身构造"伪标签"或"前置任务",让模型通过完成这些任务学习通用的高质量数据表示。
-
关键特点:
-
无需人工标注,利用海量无标签数据。
-
核心是"预测数据的一部分"或"对比学习"。
-
已成为大模型预训练的事实标准。
-
-
典型方法:掩码语言建模、对比学习、图像修补、时序预测。
4. 强化学习- "在游戏中通关晋级"
-
核心思想:智能体通过与环境交互,根据获得的奖励或惩罚信号,学习达成长期目标的最优行为策略。
-
关键特点:
-
关注序列决策和延迟奖励。
-
核心是"探索"与"利用"的权衡。
-
适用于动态、交互式环境。
-
-
典型方法:Q-learning、深度确定性策略梯度、近端策略优化、演员-评论家架构。
5. 迁移学习- "举一反三"
-
核心思想:将在源任务或领域上学到的知识(模型参数、特征表示),迁移并应用于一个新的、相关的目标任务或领域。
-
关键特点:
-
"站在巨人肩膀上"。
-
解决目标领域数据稀缺问题。
-
"预训练-微调"是主流范式。
-
-
典型方法:特征提取、模型微调、领域自适应。
6. 半监督学习 - "老师点拨,学生自学"
-
核心思想:同时利用少量标注数据和大量未标注数据进行训练,以提升模型性能。
-
关键特点:
-
在标注成本高昂的场景下提高数据利用效率。
-
假设未标注数据与标注数据共享分布信息。
-
利用未标注数据平滑决策边界。
-
-
典型方法:自训练、一致性正则化、伪标签、图神经网络。
第二梯队:重要研究与前沿范式
7. 多任务学习- "一石多鸟"
-
核心思想:一个模型同时学习多个相关任务,通过在任务间共享表示,使各个任务相互促进、共同提升。
-
关键特点:
-
提升模型的泛化能力和数据效率。
-
参数共享引入有效的归纳偏置。
-
可部署为统一的多功能模型。
-
-
典型方法:硬参数共享、软参数共享、任务关系学习。
8. 元学习- "学会如何学习"
-
核心思想:让模型"学会如何学习",即在大量任务上训练后,获得快速适应全新、少量样本任务的能力。
-
关键特点:
-
目标是学习过程本身,而非特定任务。
-
核心是两阶段训练:元训练和元测试。
-
解决小样本学习问题的关键。
-
-
典型方法:模型无关元学习、基于记忆的网络、基于度量的方法。
9. 上下文学习 - "看例子,照样子做"
-
核心思想:模型仅通过当前输入中提供的少量任务示例(上下文),就能在不更新参数的情况下,即时理解并执行新任务。
-
关键特点:
-
学习发生在模型推理过程中,模型参数保持冻结
-
完全依赖输入中的示例来推断任务模式,没有长期记忆
-
是大模型预训练阶段内化的"元学习"能力的直接体现
-
示例的数量、质量和顺序对效果影响显著
-
-
典型方法:Few-shot提示(在输入中提供示例)、演示校准(优化示例选择和排列)
10. 联邦学习- "数据不出门,模型共成长"
-
核心思想:多个参与方在本地数据上训练模型,仅交换模型更新(而非原始数据),共同构建一个全局模型,保护数据隐私。
-
关键特点:
-
"数据不动模型动",满足隐私合规要求。
-
处理非独立同分布数据是关键挑战。
-
通信效率是核心考量。
-
-
典型方法:联邦平均、联邦蒸馏、安全聚合。
11. 对比学习- "在比较中认识世界"
-
核心思想:通过拉近相似样本(正样本对)、推开不相似样本(负样本对)的方式,学习数据的有效表示。
-
关键特点:
-
是自监督学习的一种强大实现方式。
-
对数据增强策略非常敏感。
-
在多模态对齐中表现出色。
-
-
典型方法:SimCLR、MoCo、InfoNCE损失、孪生网络。
12. 提示学习 - "给AI读使用说明书"
-
核心思想:通过设计自然语言提示(任务描述、指令、示例等),引导预训练大模型完成特定任务而无需更新参数。
-
关键特点:
-
将传统任务转化为大模型能理解的"填空"或"续写"格式
-
通过调整输入而非参数来适配任务,参数效率极高
-
为不同任务提供统一的自然语言交互接口
-
提示的设计质量对任务性能影响巨大
-
-
典型方法:离散提示工程(人工设计模板)、连续提示(可训练的提示向量)、指令微调(用指令对微调模型)
13. 持续学习 / 终身学习 - "学而不忘,终身成长"
-
核心思想:模型在不遗忘旧知识的前提下,持续、顺序地学习新任务或新数据,像人类一样终身成长。
-
关键特点:
-
核心挑战是克服"灾难性遗忘"。
-
需要平衡"稳定性"与"可塑性"。
-
适用于数据流和任务流场景。
-
-
典型方法:弹性权重巩固、经验回放、动态架构扩展、知识蒸馏。
第三梯队:专项与应用导向范式
14. 在线学习 - "在游泳中学会游泳"
-
核心思想:数据以流式顺序到达,模型每收到一个(或一小批)样本就立即更新,并通常丢弃该样本,实现实时适应。
-
关键特点:
-
内存和计算效率高。
-
能够跟踪数据分布的动态变化。
-
无法重新访问全部历史数据。
-
-
典型方法:在线梯度下降、感知机、Bandit算法。
15. 小样本学习- "窥一斑而知全豹"
-
核心思想:模型在仅看到极少数(如每类1-5个)样本的情况下,就能识别或学习新类别。
-
关键特点:
-
评估场景,关注模型从少量样本中泛化的能力。
-
与元学习高度相关,但侧重点不同。
-
适用于标注极其困难的领域。
-
-
典型方法:原型网络、关系网络、基于微调的预训练模型。
16. 零样本学习 - "闻所未闻,也能识别"
-
核心思想:模型能够识别或处理在训练阶段从未见过类别的样本,通常依赖类别的语义描述。
-
关键特点:
-
依赖可见类与不可见类之间的语义关联。
-
通常使用属性、词向量等作为中间桥梁。
-
实现真正的开放世界识别。
-
-
典型方法:基于属性的分类、语义嵌入空间映射、生成式方法。
17. 模仿学习- "有样学样"
-
核心思想:通过观察专家(如人类)的示范行为来学习策略,而无需手工设计奖励函数。
-
关键特点:
-
降低强化学习中奖励函数的设计难度。
-
可以直接复制行为,但可能存在分布漂移问题。
-
分为行为克隆和逆强化学习。
-
-
典型方法:行为克隆、逆强化学习、生成对抗式模仿学习。
18. 生成对抗学习- "真假博弈,共同进化"
-
核心思想:通过生成器和判别器两个网络的对抗博弈,生成器学习产生逼真数据,判别器学习区分真实与生成数据。
-
关键特点:
-
训练过程不稳定,需要精细调参。
-
能学习复杂的数据分布,生成高质量新样本。
-
存在模式崩溃等经典问题。
-
-
典型方法:原始GAN、Wasserstein GAN、条件GAN、StyleGAN。
19. 集成学习- "三个臭皮匠,顶个诸葛亮"
-
核心思想:结合多个基学习器的预测结果,通过集体决策获得比任何单一组件更优的性能。
-
关键特点:
-
"三个臭皮匠,顶个诸葛亮"。
-
有效降低方差或偏差,提高鲁棒性。
-
训练和推理成本较高。
-
-
典型方法:Bagging、Boosting、Stacking、随机森林。
20. 主动学习- "不懂就问,高效学习"
-
核心思想:模型主动选择对提升自身性能最有价值的未标注样本,交由专家标注,以最大化标注数据的利用效率。
-
关键特点:
-
核心是设计样本价值的"查询策略"。
-
旨在用最少的标注成本达到最佳性能。
-
适用于标注成本极高的领域。
-
-
典型方法:不确定性采样、委员会查询、基于模型的预期误差降低。
第四梯队:其他相关范式
19.弱监督学习- "雾里看花,但也能看清轮廓"
-
使用不完整、不精确或有噪声的标签进行训练。典型方法:多实例学习。
20.课程学习- "循序渐进的教学法"
-
模仿人类,从简单样本开始学习,逐步增加难度。典型方法:自步学习。
21.对抗性学习- "在攻防演练中变强"
-
通过在训练中引入精心构造的对抗样本,提高模型的鲁棒性。典型方法:对抗训练。
22.神经符号学习 - "理性与感性的结合"
-
结合神经网络的感知能力与符号系统的逻辑推理能力。典型方法:神经定理证明、符号引导的神经网络。
| # | 学习范式 | 核心比喻 | 核心思想 | 关键特点 | 典型方法 |
|---|---|---|---|---|---|
| 基石与主流范式 | |||||
| 1 | 监督学习 | 老师手把手教 | 利用标注数据学习输入到输出的映射。 | 目标明确,依赖标注数据,理论成熟。 | 深度神经网络、SVM、决策树。 |
| 2 | 无监督学习 | 自己整理图书馆 | 从无标签数据中发现内在结构或模式。 | 探索性分析,无需标注,用于预处理。 | K-means, PCA, 自编码器。 |
| 3 | 自监督学习 | 自己出题考自己 | 设计前置任务,从数据本身生成监督信号。 | 无需人工标注,大模型预训练核心。 | 掩码语言建模, 对比学习。 |
| 4 | 强化学习 | 在游戏中通关晋级 | 通过环境交互与奖励信号学习最优策略。 | 关注序列决策,探索与利用的权衡。 | Q-learning, DDPG, PPO。 |
| 5 | 迁移学习 | 站在巨人肩膀上 | 将源任务知识迁移应用于新目标任务。 | 解决数据稀缺,"预训练-微调"是范式。 | 模型微调, 领域自适应。 |
| 6 | 半监督学习 | 老师点拨,学生自学 | 同时利用少量标注和大量未标注数据。 | 提高标注数据效率,利用数据分布。 | 自训练, 一致性正则化。 |
| 重要研究与前沿范式 | |||||
| 7 | 多任务学习 | 一石多鸟 | 一个模型同时学习多个相关任务,共享知识。 | 提升泛化与效率,需平衡任务损失。 | 硬/软参数共享。 |
| 8 | 联邦学习 | 数据不出门,模型共成长 | 多方本地训练,仅交换模型更新以保护隐私。 | 隐私保护,处理非独立同分布数据。 | 联邦平均, 安全聚合。 |
| 9 | 上下文学习 | 看例子,照样子做 | 仅凭输入中的几个示例,即时理解并执行新任务。 | 无需更新参数,依赖上下文示例,元学习能力的体现。 | Few-shot提示, 演示校准 |
| 10 | 对比学习 | 在比较中认识世界 | 拉近相似样本,推远不相似样本以获得表示。 | 自监督的强大分支,对数据增强敏感。 | SimCLR, MoCo, InfoNCE。 |
| 11 | 元学习 | 学会如何学习 | 在大量任务上训练,获得快速适应新任务的能力。 | 解决小样本问题,分元训练与元测试。 | MAML, 基于记忆的网络。 |
| 12 | 示学习 | 给AI读说明书 | 通过设计提示词(指令/示例),引导大模型完成特定任务。 | 调整输入而非参数,高效适配,依赖提示质量。 | 提示工程, 指令微调。 |
| 13 | 持续学习 | 学而不忘,终身成长 | 持续学习新任务而不遗忘旧知识。 | 克服"灾难性遗忘",平衡稳定与可塑。 | 弹性权重巩固, 经验回放。 |
| 14 | 在线学习 | 在游泳中学会游泳 | 数据流式到达,模型即时更新并适应变化。 | 内存效率高,适应概念漂移。 | 在线梯度下降, Bandit算法。 |
| 专项与应用导向范式 | |||||
| 15 | 小样本学习 | 窥一斑而知全豹 | 用极少数样本(每类1-5个)学习新类别。 | 评估泛化能力,与元学习紧密相关。 | 原型网络, 关系网络。 |
| 16 | 零样本学习 | 闻所未闻,也能识别 | 识别训练中未出现过的类别,依赖语义描述。 | 开放世界识别,依赖语义关联。 | 基于属性的分类, 语义嵌入。 |
| 17 | 模仿学习 | 有样学样 | 通过观察专家示范行为来学习策略。 | 避免设计奖励函数,可能受限于演示数据。 | 行为克隆, 逆强化学习。 |
| 18 | 生成对抗学习 | 真假博弈,共同进化 | 生成器与判别器对抗博弈以生成逼真数据。 | 训练不稳定,能生成高质量样本。 | GAN, WGAN, StyleGAN。 |
| 19 | 集成学习 | 三个臭皮匠,顶个诸葛亮 | 结合多个基学习器的预测以获得更优结果。 | 提升稳定性与性能,增加计算成本。 | Bagging, Boosting, 随机森林。 |
| 20 | 主动学习 | 不懂就问,高效学习 | 模型主动选择最有价值的样本请求标注。 | 最大化标注效率,核心是查询策略。 | 不确定性采样, 委员会查询。 |
| 其他重要范式 | |||||
| 21 | 弱监督学习 | 雾里看花,但也能看清轮廓 | 使用不完整、不精确或带噪声的标签进行训练。 | 降低标注成本,从弱信号中学习可靠模型。 | 多实例学习, 带噪标签学习。 |
| 22 | 课程学习 | 循序渐进的教学法 | 从简单样本开始学习,逐步增加难度。 | 符合认知规律,可加速收敛,需定义难度。 | 自步学习, 难度调度。 |
| 23 | 对抗性学习 | 在攻防演练中变强 | 加入对抗样本训练,以提高模型鲁棒性。 | 专注于安全与可靠性,分攻击与防御。 | 对抗训练, FGSM/PGD攻击。 |
| 24 | 神经符号学习 | 理性与感性的结合 | 结合神经网络的感知与符号系统的推理。 | 追求可解释AI,融合学习与推理。 | 神经定理证明, 符号引导的神经网络。 |