从零开始学AI7——机器学习0

本文系统梳理了机器学习三大范式:监督学习(有标签数据,含回归与分类算法)、无监督学习(无标签数据,含聚类与降维方法)和强化学习(基于奖惩机制)。重点介绍了12种核心算法原理与适用场景,如线性回归、SVM、K-Means等,并给出算法选择指南:预测数值用回归算法,分类问题选逻辑回归/随机森林,无监督分组用K-Means,特征降维用PCA。文末推荐使用Python的Scikit-learn库快速实现这些算法,通过fit-predict标准流程即可完成模型训练与预测。全文以"教科书教学"等生活化类比解析复杂算法,兼顾技术深度与应用指导性。

一、 监督学习 (Supervised Learning)

核心逻辑: 老师拿着教科书教学生。给数据(输入 XX),也给答案(标签 YY),让机器学会由 XX 推导 YY。

这是目前应用最广的类型。根据 YY 是数字还是类别,又分为两类:

1. 回归 (Regression) ------ 预测"多少"

输出是一个连续的数字。

  • 线性回归 (Linear Regression):
    • 原理: 在数据点中画一条直线(y=wx+by=wx+b),让所有点到线的距离之和最小。
    • 场景: 预测房价、预测下个季度的销量。
  • 多项式回归 (Polynomial Regression):
    • 原理: 直线拟合不了,就用曲线(二次方、三次方)去拟合。
2. 分类 (Classification) ------ 预测"是A还是B"

输出是一个离散的类别。

  • 逻辑回归 (Logistic Regression):
    • 原理: 虽然叫"回归",其实是分类。它在输出端加了一个 Sigmoid 函数,把数值压缩到 0~1 之间(概率)。大于0.5是A,小于0.5是B。
    • 场景: 垃圾邮件检测(是/否)、用户是否会点击广告。
  • K-近邻 (K-Nearest Neighbors, k-NN):
    • 原理: "近朱者赤"。看新来的数据点周围最近的 KK 个邻居大部分是谁,它就是谁。
    • 特点: 没有训练过程,直接拿数据比对。
  • 支持向量机 (Support Vector Machine, SVM):
    • 原理: 在两类数据中间画一条"马路"(超平面)。马路越宽越好(最大化间隔)。
    • 数学美感: 几何意义非常清晰,对小样本数据效果极好。
  • 朴素贝叶斯 (Naive Bayes):
    • 原理: 基于概率论(贝叶斯公式)。假设各个特征之间互不相关。
    • 场景: 文本分类(比如判断新闻是体育版还是娱乐版),速度极快。
  • 决策树 (Decision Tree):
    • 原理: 像人类的流程图。if 年龄 > 30 -> if 收入 > 2万 -> 批准贷款
    • 特点: 可解释性最强,你能画出它是怎么想的。
3. 集成学习 (Ensemble Learning) ------ "三个臭皮匠,顶个诸葛亮"

把很多个弱模型组合起来。

  • 随机森林 (Random Forest): 种很多棵决策树,最后投票决定结果。
  • 梯度提升树 (GBDT / XGBoost / LightGBM): 一棵树学完了,下一棵树专门去学上一棵树犯的错(残差)。这是目前处理表格数据(Excel类数据)的最强王者

二、 无监督学习 (Unsupervised Learning)

核心逻辑: 只有练习题(输入 XX),没有答案(标签 YY)。机器自己找规律。

1. 聚类 (Clustering) ------ "物以类聚"
  • K-Means (K均值聚类):
    • 原理: 先随机选 KK 个中心点,把数据分给最近的中心,然后算出新的中心,反复迭代,直到稳定。
    • 场景: 客户分群(这波人是价格敏感型,那波是土豪型)。
  • DBSCAN:
    • 原理: 基于密度的聚类。能发现任意形状的簇,还能识别噪点(离群值)。
2. 降维 (Dimensionality Reduction) ------ "把书读薄"

把高维数据(几百个特征)压缩成低维(2D或3D),同时保留主要信息。

  • PCA (主成分分析):
    • 原理: 找到数据分布最分散的方向(方差最大),投影过去。数学上就是求协方差矩阵的特征值。
    • 场景: 数据可视化、压缩数据以便后续处理。

三、 强化学习 (Reinforcement Learning)

核心逻辑: 驯兽师训练狗。机器(Agent)在环境(Environment)中乱试,做对了给奖励(Reward),做错了给惩罚。

  • 基础算法: Q-Learning, SARSA。
  • 场景: 下围棋(AlphaGo)、王者荣耀AI、机器人走路。

四、 总结:如何选择?(Cheat Sheet)

你的数据情况 任务类型 推荐算法 (起手式)
有标签,预测数值 回归 线性回归, XGBoost
有标签,预测类别 分类 逻辑回归, 随机森林, SVM
无标签,想分组 聚类 K-Means
特征太多,想简化 降维 PCA
像玩游戏一样做决策 强化 Q-Learning

学习建议

用 Python 上手,Scikit-learn (sklearn) 把上面 90% 的算法都封装好了,用法几乎一模一样:

Python

首先安装:pip install scikit-learn

测试:

python 复制代码
import sklearn
print(sklearn.__version__)

使用:

复制代码
# 经典三板斧
model.fit(X_train, y_train)  # 学习
model.predict(X_test)        # 考试
相关推荐
Dev7z2 小时前
基于深度学习的肺音分类算法研究
人工智能·深度学习
dingzd952 小时前
AI 代理购物落地后,真正的“增量岗位”叫——商品数据工程
大数据·人工智能·跨境电商·内容营销·跨境
市象2 小时前
印奇“大于”50亿
人工智能
陈天伟教授2 小时前
人工智能应用- 语言理解:08.大语言模型
人工智能·语言模型·自然语言处理
铁蛋AI编程实战2 小时前
AI调用人类服务入门与Python实现(30分钟搭建“AI+真人”协作系统)
开发语言·人工智能·python
deep_drink2 小时前
【基础知识二】彻底读懂拉普拉斯矩阵 (Laplacian)
人工智能·深度学习·线性代数·矩阵
垂钓的小鱼12 小时前
保姆级最新OpenClaw(原 Clawdbot/Moltbot)安装指南,建立隧道,外网浏览器也能访问,并接入飞书,让AI在聊天软件里帮你干活
人工智能·飞书
sensen_kiss2 小时前
Jupter Notebook 使用教程
大数据·人工智能·python·学习·数据分析
雨大王5122 小时前
如何选择适合自己企业的工业智能体解决方案?
人工智能·汽车·制造