一.分类
机器学习主要分为监督学习、无监督学习、半监督学习和强化学习 四大类。此外,随着技术发展,自监督学习、弱监督学习等也被广泛讨论,但它们通常可归入上述框架的扩展或子类。
- 监督学习(Supervised Learning)
- 特点 :训练数据包含输入和对应的真实标签(ground truth)。
- 目标:学习一个从输入到输出的映射函数。
- 典型任务:分类(如图像识别)、回归(如房价预测)。
- 无监督学习(Unsupervised Learning)
- 特点 :训练数据没有标签,模型自行发现数据中的结构或模式。
- 典型任务:聚类(如客户分群)、降维(如 PCA)、密度估计、异常检测。
- 半监督学习(Semi-supervised Learning)
- 特点 :使用少量标注数据 + 大量未标注数据进行训练。
- 动机:标注成本高,但未标注数据丰富(如医学图像、语音)。
- 常见方法:自训练(self-training)、一致性正则化、图神经网络等。
- 强化学习(Reinforcement Learning, RL)
- 特点 :智能体(agent)通过与环境交互,根据奖励信号学习最优策略。
- 关键元素:状态(state)、动作(action)、奖励(reward)、策略(policy)。
- 应用:游戏 AI(如 AlphaGo)、机器人控制、推荐系统中的长期收益优化。
- 自监督学习(Self-supervised Learning)
- 本质 :从无标签数据中自动生成监督信号(如预测被掩盖的词、图像旋转角度)。
- 地位:可视为无监督学习的一种强大子类,是大模型(如 BERT、MAE)预训练的核心。
- 弱监督学习(Weakly-supervised Learning)
- 包括:不完全监督 (只有部分样本有标签)、不确切监督 (标签是粗粒度的)、不准确监督(标签含噪声)。
- 在线学习(Online Learning)
- 模型在数据逐个到达时实时更新,适用于流式数据(如广告点击率预测)。
- 迁移学习(Transfer Learning) & 元学习(Meta-learning)
- 虽然不是独立的学习范式,但它们跨范式应用,强调"学如何学"或"知识迁移"。
二.监督学习
包括回归和分类问题。
1 回归算法(预测连续值)
| 算法 | 特点 | 适用场景 |
|---|---|---|
| 线性回归(Linear Regression) | 假设特征与目标呈线性关系,解析解或梯度下降求解 | 基线模型、可解释性强 |
| 岭回归(Ridge Regression) | 在线性回归基础上加 L2 正则,防止过拟合 | 特征多、存在共线性 |
| Lasso 回归(Lasso Regression) | 加 L1 正则,可实现特征选择(稀疏解) | 高维稀疏特征、自动选特征 |
| 弹性网络(Elastic Net) | L1 + L2 正则结合,兼顾 Lasso 和 Ridge 优点 | 特征多且相关性强 |
| 决策树回归(Decision Tree Regressor) | 非参数、可捕捉非线性关系 | 可解释、无需特征缩放 |
| 随机森林回归(Random Forest Regressor) | 多棵决策树集成,降低方差 | 稳定、抗过拟合、默认强 baseline |
| 梯度提升树(如 XGBoost, LightGBM, CatBoost) | 串行集成,优化损失函数,性能强 | 结构化数据竞赛/工业首选 |
| 支持向量回归(SVR) | 基于 SVM 思想,使用核技巧处理非线性 | 小样本、高维,但调参复杂 |
| K 近邻回归(KNN Regressor) | 基于局部相似性预测平均值 | 简单、无训练过程,但推理慢 |
2 分类算法(预测离散标签)
| 算法 | 特点 | 适用场景 |
|---|---|---|
| 逻辑回归(Logistic Regression) | 线性模型 + sigmoid 输出概率,可解释性强 | 二分类基线、特征重要性分析 |
| 朴素贝叶斯(Naive Bayes) | 基于贝叶斯定理 + 特征条件独立假设 | 文本分类(如垃圾邮件)、高维稀疏数据 |
| K 近邻分类(KNN Classifier) | 基于邻近样本投票 | 简单、无需训练,适合小数据集 |
| 决策树(Decision Tree) | 树形规则,可处理非线性、特征交互 | 可解释、可视化规则 |
| 随机森林(Random Forest) | 并行集成多棵树,bagging + 随机特征 | 鲁棒、抗过拟合、默认强模型 |
| 梯度提升机(GBM / XGBoost / LightGBM / CatBoost) | 串行优化残差,精度高 | 工业级分类任务、结构化数据 SOTA |
| 支持向量机(SVM) | 最大间隔分类,支持核方法处理非线性 | 小样本、高维(如文本)、二分类强 |
| 多层感知机(MLP,即浅层神经网络) | 非线性函数逼近,需调参 | 特征复杂、可作为深度学习入门 |
- 像 XGBoost/LightGBM 既支持回归也支持分类,通过目标函数(objective)区分。
- 神经网络(包括深度学习)也能用于回归/分类,但在传统机器学习语境下,通常指上述经典算法。
三.无监督学习
处理聚类、降维、异常检测、关联规则挖掘等。
1.聚类(Clustering)------发现数据分组
| 算法 | 核心思想 | 优缺点 | 典型应用 |
|---|---|---|---|
| K-Means | 将数据划分为 K 个簇,最小化簇内平方和 | 简单高效;需预设 K,对异常值敏感,仅适用于球形簇 | 客户分群、图像压缩 |
| 层次聚类(Hierarchical Clustering) | 构建树状聚类结构(凝聚式/分裂式) | 无需预设 K,可可视化聚类过程;计算复杂度高 | 生物信息学、小规模数据分析 |
| DBSCAN | 基于密度连接,自动发现任意形状簇 | 可处理噪声、无需指定簇数;对参数(eps, minPts)敏感 | 异常检测、地理热点发现 |
| Gaussian Mixture Models (GMM) | 假设数据由多个高斯分布混合生成,用 EM 算法拟合 | 软聚类(输出概率),可建模重叠簇;假设分布可能不成立 | 语音识别、图像分割 |
| 谱聚类(Spectral Clustering) | 利用图拉普拉斯矩阵的特征向量进行聚类 | 能处理非凸形状簇;计算开销大(需特征分解) | 图数据、图像分割 |
| Mean Shift | 基于密度梯度上升寻找模式中心 | 自动确定簇数;计算慢,不适合高维 | 目标跟踪、计算机视觉 |
2.降维(Dimensionality Reduction)------压缩或可视化特征
| 算法 | 类型 | 特点 |
|---|---|---|
| 主成分分析(PCA) | 线性 | 最大化方差,正交投影,常用于去噪、可视化、加速 |
| t-SNE | 非线性 | 保留局部结构,适合可视化高维数据(如嵌入向量);不保留全局距离 |
| UMAP | 非线性 | 比 t-SNE 更快,兼顾局部与全局结构,支持高维到高维映射 |
| 自编码器(Autoencoder) | 神经网络 | 通过编码-解码结构学习低维表示,可处理非线性 |
✅ 应用 :在大模型 RAG 系统中,PCA 可用于压缩嵌入向量 以节省存储;t-SNE/UMAP 用于分析检索结果分布。
3.异常检测(Anomaly Detection)
| 算法 | 原理 |
|---|---|
| 孤立森林(Isolation Forest) | 基于"异常点更容易被随机分割隔离"的思想 |
| One-Class SVM | 学习正常数据的边界,识别边界外的点 |
| LOF(Local Outlier Factor) | 基于局部密度,判断点是否远离邻居 |
4.关联规则学习(Association Rule Learning)
| 算法 | 用途 |
|---|---|
| Apriori | 从交易数据中挖掘频繁项集和关联规则(如"买尿布 → 买啤酒") |
| FP-Growth | 更高效的频繁模式挖掘,无需生成候选集 |
构建 RAG 系统时使用的文本嵌入模型(如 text-embedding-ada-002、BGE),其预训练阶段就是典型的无监督/自监督学习。