机器学习相关

一.分类

机器学习主要分为监督学习、无监督学习、半监督学习和强化学习 四大类。此外，随着技术发展，自监督学习、弱监督学习等也被广泛讨论，但它们通常可归入上述框架的扩展或子类。

监督学习（Supervised Learning）
- 特点：训练数据包含输入和对应的真实标签（ground truth）。
- 目标：学习一个从输入到输出的映射函数。
- 典型任务：分类（如图像识别）、回归（如房价预测）。
无监督学习（Unsupervised Learning）
- 特点：训练数据没有标签，模型自行发现数据中的结构或模式。
- 典型任务：聚类（如客户分群）、降维（如 PCA）、密度估计、异常检测。
半监督学习（Semi-supervised Learning）
- 特点：使用少量标注数据 + 大量未标注数据进行训练。
- 动机：标注成本高，但未标注数据丰富（如医学图像、语音）。
- 常见方法：自训练（self-training）、一致性正则化、图神经网络等。
强化学习（Reinforcement Learning, RL）
- 特点：智能体（agent）通过与环境交互，根据奖励信号学习最优策略。
- 关键元素：状态（state）、动作（action）、奖励（reward）、策略（policy）。
- 应用：游戏 AI（如 AlphaGo）、机器人控制、推荐系统中的长期收益优化。
自监督学习（Self-supervised Learning）
- 本质：从无标签数据中自动生成监督信号（如预测被掩盖的词、图像旋转角度）。
- 地位：可视为无监督学习的一种强大子类，是大模型（如 BERT、MAE）预训练的核心。
弱监督学习（Weakly-supervised Learning）
- 包括：不完全监督 （只有部分样本有标签）、不确切监督 （标签是粗粒度的）、不准确监督（标签含噪声）。
在线学习（Online Learning）
- 模型在数据逐个到达时实时更新，适用于流式数据（如广告点击率预测）。
迁移学习（Transfer Learning） & 元学习（Meta-learning）
- 虽然不是独立的学习范式，但它们跨范式应用，强调"学如何学"或"知识迁移"。

二.监督学习

包括回归和分类问题。

1 回归算法（预测连续值）

算法	特点	适用场景
线性回归（Linear Regression）	假设特征与目标呈线性关系，解析解或梯度下降求解	基线模型、可解释性强
岭回归（Ridge Regression）	在线性回归基础上加 L2 正则，防止过拟合	特征多、存在共线性
Lasso 回归（Lasso Regression）	加 L1 正则，可实现特征选择（稀疏解）	高维稀疏特征、自动选特征
弹性网络（Elastic Net）	L1 + L2 正则结合，兼顾 Lasso 和 Ridge 优点	特征多且相关性强
决策树回归（Decision Tree Regressor）	非参数、可捕捉非线性关系	可解释、无需特征缩放
随机森林回归（Random Forest Regressor）	多棵决策树集成，降低方差	稳定、抗过拟合、默认强 baseline
梯度提升树（如 XGBoost, LightGBM, CatBoost）	串行集成，优化损失函数，性能强	结构化数据竞赛/工业首选
支持向量回归（SVR）	基于 SVM 思想，使用核技巧处理非线性	小样本、高维，但调参复杂
K 近邻回归（KNN Regressor）	基于局部相似性预测平均值	简单、无训练过程，但推理慢

2 分类算法（预测离散标签）

算法	特点	适用场景
逻辑回归（Logistic Regression）	线性模型 + sigmoid 输出概率，可解释性强	二分类基线、特征重要性分析
朴素贝叶斯（Naive Bayes）	基于贝叶斯定理 + 特征条件独立假设	文本分类（如垃圾邮件）、高维稀疏数据
K 近邻分类（KNN Classifier）	基于邻近样本投票	简单、无需训练，适合小数据集
决策树（Decision Tree）	树形规则，可处理非线性、特征交互	可解释、可视化规则
随机森林（Random Forest）	并行集成多棵树，bagging + 随机特征	鲁棒、抗过拟合、默认强模型
梯度提升机（GBM / XGBoost / LightGBM / CatBoost）	串行优化残差，精度高	工业级分类任务、结构化数据 SOTA
支持向量机（SVM）	最大间隔分类，支持核方法处理非线性	小样本、高维（如文本）、二分类强
多层感知机（MLP，即浅层神经网络）	非线性函数逼近，需调参	特征复杂、可作为深度学习入门

像 XGBoost/LightGBM 既支持回归也支持分类，通过目标函数（objective）区分。
神经网络（包括深度学习）也能用于回归/分类，但在传统机器学习语境下，通常指上述经典算法。

三.无监督学习

处理聚类、降维、异常检测、关联规则挖掘等。

1.聚类（Clustering）------发现数据分组

算法	核心思想	优缺点	典型应用
K-Means	将数据划分为 K 个簇，最小化簇内平方和	简单高效；需预设 K，对异常值敏感，仅适用于球形簇	客户分群、图像压缩
层次聚类（Hierarchical Clustering）	构建树状聚类结构（凝聚式/分裂式）	无需预设 K，可可视化聚类过程；计算复杂度高	生物信息学、小规模数据分析
DBSCAN	基于密度连接，自动发现任意形状簇	可处理噪声、无需指定簇数；对参数（eps, minPts）敏感	异常检测、地理热点发现
Gaussian Mixture Models (GMM)	假设数据由多个高斯分布混合生成，用 EM 算法拟合	软聚类（输出概率），可建模重叠簇；假设分布可能不成立	语音识别、图像分割
谱聚类（Spectral Clustering）	利用图拉普拉斯矩阵的特征向量进行聚类	能处理非凸形状簇；计算开销大（需特征分解）	图数据、图像分割
Mean Shift	基于密度梯度上升寻找模式中心	自动确定簇数；计算慢，不适合高维	目标跟踪、计算机视觉

2.降维（Dimensionality Reduction）------压缩或可视化特征

算法	类型	特点
主成分分析（PCA）	线性	最大化方差，正交投影，常用于去噪、可视化、加速
t-SNE	非线性	保留局部结构，适合可视化高维数据（如嵌入向量）；不保留全局距离
UMAP	非线性	比 t-SNE 更快，兼顾局部与全局结构，支持高维到高维映射
自编码器（Autoencoder）	神经网络	通过编码-解码结构学习低维表示，可处理非线性

✅ 应用：在大模型 RAG 系统中，PCA 可用于压缩嵌入向量 以节省存储；t-SNE/UMAP 用于分析检索结果分布。

3.异常检测（Anomaly Detection）

算法	原理
孤立森林（Isolation Forest）	基于"异常点更容易被随机分割隔离"的思想
One-Class SVM	学习正常数据的边界，识别边界外的点
LOF（Local Outlier Factor）	基于局部密度，判断点是否远离邻居

4.关联规则学习（Association Rule Learning）

算法	用途
Apriori	从交易数据中挖掘频繁项集和关联规则（如"买尿布 → 买啤酒"）
FP-Growth	更高效的频繁模式挖掘，无需生成候选集

构建 RAG 系统时使用的文本嵌入模型（如 text-embedding-ada-002、BGE），其预训练阶段就是典型的无监督/自监督学习。