常见经典十大大机器学习算法分类与总结

机器学习算法可以按照学习方式分为有监督学习、无监督学习和半监督学习三大类。


资料获取

为了加深大家对机器学习的掌握,我准备了一整套机器学习资料还有800G人工智能资料,不仅有入门教程和讲义,还有几十个机器学习练手项目,更有零基础入门学习路线,不论你处于什么阶段,这份资料都能帮助你更好地入门到进阶。

需要的兄弟可以按照这个图的方式免费获取


以下是常见算法的核心思想、适用场景及分类总结:

1. 有监督学习 (Supervised Learning)

有监督学习是指模型在训练过程中通过"特征-标签"样本对进行学习,建立从输入到输出的映射关系。

  • 线性回归 (Linear Regression)

  • 核心思想:通过寻找最佳的权重参数 和偏置 ,最小化预测值与真实值之间的均方误差。

  • 适用场景 :对连续值进行预测,如房价预测、气象数值预测。

  • 逻辑回归 (Logistic Regression)

  • 核心思想:虽然名为回归,实质是分类模型。它将线性组合的结果通过 Sigmoid 函数映射到 区间,表示样本属于某一类别的概率。

  • 适用场景二分类或多分类任务,如邮件过滤、点击率预测。

  • K近邻 (K-Nearest Neighbor, KNN)

    • 核心思想:基于"少数服从多数"原则,根据新样本周围最近的 个训练样本的类别进行投票决策。

    • 适用场景模式识别、简单分类任务,如手写体识别、垃圾邮件初步分类。

  • 朴素贝叶斯 (Naive Bayes)

    • 核心思想:基于贝叶斯公式并假设特征之间相互独立(朴素假设),通过极大化后验概率来确定类别。

    • 适用场景文本分类,尤其是垃圾邮件识别、情感分析。

  • 决策树 (Decision Tree)

    • 核心思想:通过信息增益或基尼不纯度等标准,将决策过程看作一系列 if-then 规则的集合,旨在降低信息的不确定性。

    • 适用场景风险评估、贷款审批、医疗诊断等具有清晰逻辑规则的场景。

  • 支持向量机 (Support Vector Machine, SVM)

    • 核心思想:寻找一个能够最大化两类样本之间间隔的超平面,通过核技巧解决线性不可分问题。

    • 适用场景高维特征的小样本分类,如图像识别、生物信息学。

  • 集成学习 (Ensemble Learning)

    • 核心思想 :通过组合多个基模型来提高整体泛化能力。包括并行训练的 Bagging (如随机森林)、串行纠错的 Boosting (如AdaBoost、GBDT)和层叠组合的 Stacking

    • 适用场景复杂分类和回归任务,追求高精度和强稳健性的工业级应用。

2. 无监督学习 (Unsupervised Learning)

无监督学习在训练中不需要真实标签,模型仅根据输入特征寻找数据中潜在的模式或结构。

  • K均值聚类 (K-means/K-means++)

    • 核心思想:通过迭代寻找 个簇中心,将样本划分到与其距离最近(相似度最高)的簇中。

    • 适用场景客户细分、图像分割、数据探索性分析。

  • 基于密度的聚类 (DBSCAN)

    • 核心思想:根据样本分布的密度(紧凑程度)进行聚类,能够识别出任意形状的簇并过滤噪声点。

    • 适用场景包含噪声、簇形状不规则的数据集

  • 层次聚类 (Hierarchical Clustering)

  • 核心思想:自下而上(凝聚)或自上而下(分裂)地建立簇的层次结构,生成树状图展示样本间的包含关系。

  • 适用场景需要展示数据层级结构的任务,如分类生物物种。

  • 主成分分析 (PCA/Kernel PCA)

    • 核心思想:将高维特征投影到低维的主成分空间,保留尽可能多的原始数据方差(结构信息)。

    • 适用场景高维数据可视化、数据降维、去除冗余特征

3. 半监督学习 (Semi-supervised Learning)

介于前两者之间,利用少量标注数据和大量无标签数据来完成模型训练。

  • 自训练算法 (Self-training)

    • 核心思想:先用少量标签数据训练一个弱分类器,对无标签数据预测后,选取高置信度的预测结果扩充训练集,循环往复。

    • 适用场景标签获取昂贵、仅有极少部分数据被标注的情况。

  • 标签传播/扩散算法 (Label Propagation/Spreading)

    • 核心思想:构建样本间的有向图,利用相似样本点间距离越近越可能有相同标签的原理,将标签信息从有标注点传递到无标注点。

    • 适用场景基于图结构的社交网络分析、半监督社区检测。

4. 总结

我们可以把机器学习算法比作一个学生学习知识的过程:

  • 有监督学习 :像是在老师的辅导下,对着有标准答案的试卷不断练习,从而学会根据题目(特征)推导答案(标签)。

  • 无监督学习:像是在没有老师和参考书的情况下,学生自己观察一堆物品,发现其中长得像的就分到一堆,或者找出物品的主要特征进行精简(聚类与降维)。

  • 半监督学习 :像是一个学生只有几道题有答案,他先学会这几道题,然后尝试去写没有答案的题,并根据自己的判断把写对概率大的题目当作新的例题来学习。

相关推荐
怪兽学LLM几秒前
LeetCode 438 找到字符串中所有字母异位词(Python 固定滑动窗口+字符计数解法)
python·算法·leetcode
没事别瞎琢磨1 分钟前
二、类型系统——给所有概念起名字
人工智能·node.js
卡梅德生物科技小能手6 分钟前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习
满怀冰雪6 分钟前
第04篇-双指针算法-从有序数组到回文判断的高频解法
java·算法
CC数学建模6 分钟前
2026年江西省研究生数学建模竞赛1题:空间数据分析中的过拟合识别完整思路、代码、模型、文章,全网首发高质量分享!
python·算法·数学建模
战族狼魂8 分钟前
基于 CNN 的ConvS2S(Convolutional Sequence-to-Sequence)架构英德机器翻译模型
人工智能·cnn·机器翻译
me83211 分钟前
【AI面试】小白理解大模型:仅编码器(BERT类)、仅解码器(GPT类)和完整的编码器-解码器架构各有什么优缺点?
人工智能·gpt·ai·bert
不考研当牛马11 分钟前
Django 框架 深度学习
python·深度学习·django
醒醒该学习了!13 分钟前
大语言模型(理论篇)
人工智能·语言模型·自然语言处理
leo__52014 分钟前
MATLAB实现牧羊人算法
开发语言·算法·matlab