机器学习相关

一.分类

机器学习主要分为监督学习、无监督学习、半监督学习和强化学习 四大类。此外,随着技术发展,自监督学习、弱监督学习等也被广泛讨论,但它们通常可归入上述框架的扩展或子类。

  1. 监督学习(Supervised Learning)
    • 特点 :训练数据包含输入和对应的真实标签(ground truth)
    • 目标:学习一个从输入到输出的映射函数。
    • 典型任务:分类(如图像识别)、回归(如房价预测)。
  2. 无监督学习(Unsupervised Learning)
    • 特点 :训练数据没有标签,模型自行发现数据中的结构或模式。
    • 典型任务:聚类(如客户分群)、降维(如 PCA)、密度估计、异常检测。
  3. 半监督学习(Semi-supervised Learning)
    • 特点 :使用少量标注数据 + 大量未标注数据进行训练。
    • 动机:标注成本高,但未标注数据丰富(如医学图像、语音)。
    • 常见方法:自训练(self-training)、一致性正则化、图神经网络等。
  4. 强化学习(Reinforcement Learning, RL)
    • 特点 :智能体(agent)通过与环境交互,根据奖励信号学习最优策略。
    • 关键元素:状态(state)、动作(action)、奖励(reward)、策略(policy)。
    • 应用:游戏 AI(如 AlphaGo)、机器人控制、推荐系统中的长期收益优化。
  5. 自监督学习(Self-supervised Learning)
    • 本质 :从无标签数据中自动生成监督信号(如预测被掩盖的词、图像旋转角度)。
    • 地位:可视为无监督学习的一种强大子类,是大模型(如 BERT、MAE)预训练的核心。
  6. 弱监督学习(Weakly-supervised Learning)
    • 包括:不完全监督 (只有部分样本有标签)、不确切监督 (标签是粗粒度的)、不准确监督(标签含噪声)。
  7. 在线学习(Online Learning)
    • 模型在数据逐个到达时实时更新,适用于流式数据(如广告点击率预测)。
  8. 迁移学习(Transfer Learning) & 元学习(Meta-learning)
    • 虽然不是独立的学习范式,但它们跨范式应用,强调"学如何学"或"知识迁移"。

二.监督学习

包括回归和分类问题。

1 回归算法(预测连续值)

算法 特点 适用场景
线性回归(Linear Regression) 假设特征与目标呈线性关系,解析解或梯度下降求解 基线模型、可解释性强
岭回归(Ridge Regression) 在线性回归基础上加 L2 正则,防止过拟合 特征多、存在共线性
Lasso 回归(Lasso Regression) 加 L1 正则,可实现特征选择(稀疏解) 高维稀疏特征、自动选特征
弹性网络(Elastic Net) L1 + L2 正则结合,兼顾 Lasso 和 Ridge 优点 特征多且相关性强
决策树回归(Decision Tree Regressor) 非参数、可捕捉非线性关系 可解释、无需特征缩放
随机森林回归(Random Forest Regressor) 多棵决策树集成,降低方差 稳定、抗过拟合、默认强 baseline
梯度提升树(如 XGBoost, LightGBM, CatBoost) 串行集成,优化损失函数,性能强 结构化数据竞赛/工业首选
支持向量回归(SVR) 基于 SVM 思想,使用核技巧处理非线性 小样本、高维,但调参复杂
K 近邻回归(KNN Regressor) 基于局部相似性预测平均值 简单、无训练过程,但推理慢

2 分类算法(预测离散标签)

算法 特点 适用场景
逻辑回归(Logistic Regression) 线性模型 + sigmoid 输出概率,可解释性强 二分类基线、特征重要性分析
朴素贝叶斯(Naive Bayes) 基于贝叶斯定理 + 特征条件独立假设 文本分类(如垃圾邮件)、高维稀疏数据
K 近邻分类(KNN Classifier) 基于邻近样本投票 简单、无需训练,适合小数据集
决策树(Decision Tree) 树形规则,可处理非线性、特征交互 可解释、可视化规则
随机森林(Random Forest) 并行集成多棵树,bagging + 随机特征 鲁棒、抗过拟合、默认强模型
梯度提升机(GBM / XGBoost / LightGBM / CatBoost) 串行优化残差,精度高 工业级分类任务、结构化数据 SOTA
支持向量机(SVM) 最大间隔分类,支持核方法处理非线性 小样本、高维(如文本)、二分类强
多层感知机(MLP,即浅层神经网络) 非线性函数逼近,需调参 特征复杂、可作为深度学习入门
  • XGBoost/LightGBM 既支持回归也支持分类,通过目标函数(objective)区分。
  • 神经网络(包括深度学习)也能用于回归/分类,但在传统机器学习语境下,通常指上述经典算法。

三.无监督学习

处理聚类、降维、异常检测、关联规则挖掘等。

1.聚类(Clustering)------发现数据分组

算法 核心思想 优缺点 典型应用
K-Means 将数据划分为 K 个簇,最小化簇内平方和 简单高效;需预设 K,对异常值敏感,仅适用于球形簇 客户分群、图像压缩
层次聚类(Hierarchical Clustering) 构建树状聚类结构(凝聚式/分裂式) 无需预设 K,可可视化聚类过程;计算复杂度高 生物信息学、小规模数据分析
DBSCAN 基于密度连接,自动发现任意形状簇 可处理噪声、无需指定簇数;对参数(eps, minPts)敏感 异常检测、地理热点发现
Gaussian Mixture Models (GMM) 假设数据由多个高斯分布混合生成,用 EM 算法拟合 软聚类(输出概率),可建模重叠簇;假设分布可能不成立 语音识别、图像分割
谱聚类(Spectral Clustering) 利用图拉普拉斯矩阵的特征向量进行聚类 能处理非凸形状簇;计算开销大(需特征分解) 图数据、图像分割
Mean Shift 基于密度梯度上升寻找模式中心 自动确定簇数;计算慢,不适合高维 目标跟踪、计算机视觉

2.降维(Dimensionality Reduction)------压缩或可视化特征

算法 类型 特点
主成分分析(PCA) 线性 最大化方差,正交投影,常用于去噪、可视化、加速
t-SNE 非线性 保留局部结构,适合可视化高维数据(如嵌入向量);不保留全局距离
UMAP 非线性 比 t-SNE 更快,兼顾局部与全局结构,支持高维到高维映射
自编码器(Autoencoder) 神经网络 通过编码-解码结构学习低维表示,可处理非线性

应用 :在大模型 RAG 系统中,PCA 可用于压缩嵌入向量 以节省存储;t-SNE/UMAP 用于分析检索结果分布

3.异常检测(Anomaly Detection)

算法 原理
孤立森林(Isolation Forest) 基于"异常点更容易被随机分割隔离"的思想
One-Class SVM 学习正常数据的边界,识别边界外的点
LOF(Local Outlier Factor) 基于局部密度,判断点是否远离邻居

4.关联规则学习(Association Rule Learning)

算法 用途
Apriori 从交易数据中挖掘频繁项集和关联规则(如"买尿布 → 买啤酒")
FP-Growth 更高效的频繁模式挖掘,无需生成候选集

构建 RAG 系统时使用的文本嵌入模型(如 text-embedding-ada-002、BGE),其预训练阶段就是典型的无监督/自监督学习。

相关推荐
●VON2 小时前
智造之眼:人工智能如何重塑现代工业制造
人工智能·学习·制造·von
TLeung653672 小时前
美团开源黑科技InfiniteTalk:不限视频长度AI工具,支持图生视频和视频生视频,既可本地部署也可云端部署。关键免费、免费、免费。
人工智能·科技·音视频
OpenCSG2 小时前
MiniMax M2.1登上多语言编程基准前列。这个新模型如何打破了过去模型的“偏科“困局?
人工智能·开源·opencsg·agentichub
纪佰伦2 小时前
类人脑的另一种计算 ——大语言模型large-lauguage-model——训练到推理三个过程
人工智能·深度学习·语言模型
汉克老师2 小时前
小学生0基础学大语言模型应用(第12课 《循环的遥控器:break 和 continue》)
人工智能·python·语言模型·自然语言处理·continue·break·小学生学大语言模型
慕云紫英2 小时前
大萧条时代研究生培养新的
大数据·人工智能·研究生
泰迪智能科技012 小时前
人工智能训练师被纳入广州、佛山紧缺工种目录,补贴按照上浮30%的标准执行
人工智能
qyresearch_2 小时前
机器人产业:从工业革命到智能时代的进化图谱
人工智能
编码小哥2 小时前
OpenCV分水岭算法:图像分割的利器
人工智能·opencv·计算机视觉