机器学习算法分类

机器学习任务与常用算法

📊 任务类型与应用示例

任务类型 解决的问题 应用示例
分类 给定输入预测类别 邮件分类、图像识别
回归 给定输入预测连续值 房价预测、销量预测
聚类 发现数据的内在分组 客户分群、市场细分
降维 简化数据结构,减少特征 数据可视化、噪声过滤
异常检测 识别异常或异常行为 欺诈检测、设备故障预测
强化学习 学习策略以实现目标 游戏AI、自动驾驶
生成模型 生成新的数据样本 图像生成、语音合成

🧠 1. 监督学习(Supervised Learning)

📌 分类(Classification)

  • 逻辑回归(Logistic Regression)------适合二分类
  • 支持向量机(SVM)------处理线性/非线性分类
  • 决策树(Decision Tree)------可解释性好
  • 随机森林(Random Forest)------降低过拟合,效果稳定
  • 梯度提升树(XGBoost, LightGBM, CatBoost)------比赛常胜将军
  • k近邻算法(kNN)------简单直观
  • 神经网络/深度学习(MLP, CNN, RNN)------处理复杂模式

📌 回归(Regression)

  • 线性回归(Linear Regression)------简单基线模型
  • 岭回归/套索回归(Ridge / Lasso)------加正则防过拟合
  • 支持向量回归(SVR)
  • 决策树回归(Decision Tree Regressor)
  • 随机森林回归(Random Forest Regressor)
  • 梯度提升回归(XGBoost, LightGBM)
  • 深度神经网络(DNN)

🔍 2. 无监督学习(Unsupervised Learning)

📌 聚类(Clustering)

  • K均值聚类(K-Means)------经典入门
  • 层次聚类(Hierarchical Clustering)
  • DBSCAN------发现任意形状的簇,适合噪声多
  • 高斯混合模型(GMM)------概率模型聚类

📌 降维(Dimensionality Reduction)

  • 主成分分析(PCA)
  • t-SNE(高维数据可视化)
  • UMAP(高维可视化,速度快)
  • 线性判别分析(LDA,用于监督降维)

📌 异常检测(Anomaly Detection)

  • 孤立森林(Isolation Forest)
  • 一类支持向量机(One-Class SVM)
  • LOF(局部离群因子)
  • 自编码器(Autoencoder)------深度学习检测异常

🌓 3. 半监督学习(Semi-supervised Learning)

  • 伪标签(Pseudo-Labeling)
  • 一致性正则化(Consistency Regularization,如 FixMatch)
  • 图半监督学习(Label Propagation, GCN)

🎮 4. 强化学习(Reinforcement Learning)

  • Q学习(Q-Learning)
  • SARSA
  • 深度Q网络(DQN)
  • 策略梯度(Policy Gradient)
  • Actor-Critic方法(A3C, PPO)

🎨 5. 生成模型(Generative Models)

  • 生成对抗网络(GAN)
  • 变分自编码器(VAE)
  • 扩散模型(Diffusion Models)
  • 自回归模型(AR, Transformer-based models)

💡 简单记忆法

  • 分类/回归 → 逻辑回归、SVM、决策树、集成方法、深度网络
  • 聚类 → K-Means, DBSCAN, GMM
  • 降维 → PCA, t-SNE, UMAP
  • 异常检测 → Isolation Forest, One-Class SVM
  • 强化学习 → Q-Learning, DQN
  • 生成 → GAN, VAE, 扩散模型