多模态大模型学习笔记（二）——机器学习十大经典算法：一张表看懂分类 / 回归 / 聚类 / 降维

机器学习十大经典算法：一张表看懂分类 / 回归 / 聚类 / 降维

在上一篇内容中，我们梳理了机器学习的核心任务体系（监督/无监督学习），以及回归、分类、聚类、降维四大核心任务的底层逻辑。本篇将聚焦机器学习十大经典算法，用"表格+可视化图解"的形式，拆解每类算法的适用场景、核心逻辑和关键特性，帮你快速匹配算法与业务需求。

机器学习算法的选择，第一步是"按任务定算法范围"。以下这张表清晰标注了十大经典算法分别对应回归、分类、聚类、降维四大核心任务，帮你快速定位：

回归任务的核心是"预测连续型结果"（如房价、销量、温度），十大算法中聚焦回归的有4类，且均属于监督学习范畴：

线性回归是回归任务的"基线算法"，核心是拟合输入特征与输出数值的线性关系（y = wx + b），权重系数可直接反映特征对结果的影响程度。

适用场景 ：房价初步预测、销量基线计算、风控中特征权重分析（如收入对还款能力的影响）；
核心特点：可解释性极强、训练/预测速度快，但仅能拟合线性关系。

这三类算法既支持分类也支持回归，是处理非线性回归任务的核心工具，三者的核心差异在于"模型构建逻辑"：

决策树核心结构（回归/分类通用）

随机森林多树集成逻辑

GBDT误差修正逻辑

适用场景：

分类任务是监督学习中最常用的场景（如垃圾邮件识别、用户标签分类），十大算法中有7类聚焦分类，覆盖不同数据规模、维度和可解释性需求：

分类任务核心逻辑框架

逻辑回归基于线性回归扩展，通过Sigmoid函数将输出映射到0~1区间，实现二分类概率预测，是高维稀疏数据分类的首选基线算法。

适用场景：垃圾邮件识别、贷款风险判断、广告点击率预测（十万级数据+几百维特征）。

基于贝叶斯定理，假设特征独立，训练/预测速度极快，对文本类高维稀疏数据友好。

适用场景：新闻分类、垃圾短信识别、百万级用户行为标签分类。

核心是"物以类聚"，无需训练，新样本类别由最近K个邻居决定，适合小样本、低维数据。

适用场景：小型数据集图像识别（小于1万样本+几十维特征）。

寻找最优超平面最大化类别间隔，通过核函数处理非线性数据，高维小样本下精度突出。

适用场景：基因数据分类、图像特征分类（十万级高维小样本）。

三类算法在分类场景的特性与回归场景一致，核心差异在于输出为离散类别：

数据规模	维度数量	可解释性要求	算力和时间需求	分类算法
十万级	几百维	强（权重系数可解释）	训练快，预测快，适合 baseline	逻辑回归
百万级	高维稀疏	中（概率结果可解释）	极快，训练和预测开销都低	朴素贝叶斯
小于一万	几十维	弱（黑箱投票）	无训练，大样本时非常缓慢	KNN
十万级	高维小样本	中（支持向量可解释）	训练慢，预测速度中	SVM
十万级	几百维	强（树结构直观）	训练快，预测速度快，易过拟合	决策树
百万级	高维稀疏	中（可看特征重要性）	训练慢，预测速度中，鲁棒性好	随机森林
百万级以上	高维稀疏	弱（黑箱，难解释）	训练慢，预测比 RF 慢，精度最高	GBDT