机器学习知识体系
一、相关概念
人工智能(AI)
-
**是什么**:让机器像人一样思考、感知、决策
-
是让机器人模拟人类思考和行动的统称抽象概念
机器学习(ML)
- 让机器自动从数据中学习
深度学习(DL)
- 机器学习的一种,靠神经网络自动提取特征
> **三者关系**:AI是目标,ML是实现AI的方法之一,DL是ML中靠神经网络的那一支。
二、发展三要素
1. 数据
决定模型效果的上限
关键点
| 概念 | 说明 |
|------|------|
| 样本 | 一条数据就是一个样本 |
| 特征 | 从数据中抽取的、对预测有用的信息(属性) |
| 标签 | 需要预测的信息 |
数据集划分
| 类型 | 用途 |
|------|------|
| 训练集 | 用来训练模型的数据集 |
| 测试集 | 用来测试模型的数据集 |
2. 算法
逼近上限的方式
如何实现
-
模型架构
-
参数初始化
-
不停降低损失,学会最好的参数(学习/训练)
-
机器自己通过"猜测-计算损失-调整参数"的循环,找到最优解
算法类型
| 类型 | 说明 |
|------|------|
| 监督学习 | 有标签数据 |
| 无监督学习 | 无标签数据 |
| 半监督学习 | 部分有标签 |
| 强化学习 | 通过奖励信号学习 |
解决任务类型
| 类型 | 说明 | 示例 |
|------|------|------|
| 分类 | 标签离散 | 垃圾邮件识别 |
| 回归 | 标签连续 | 房价预测 |
| 聚类 | 无标签自动分组 | 用户分群 |
3. 算力
支撑计算的能力
| 芯片 | 特点 |
|------|------|
| CPU | 适合IO操作 |
| GPU | 适合并行计算 |
| TPU | 专门为神经网络设计的专用芯片(ASIC),推理速度极快,但可编程性极差 |
> **算力影响**:算力差会强迫你使用更小的模型、更少的数据、更低的数值精度,从而间接导致模型效果变差。在使用低精度浮点数(如FP16)时,极少数情况下会产生误差累积,导致计算结果出现偏差。
> **三者关系**:算法是机器学习实现的方式,算法需要数据和算力支撑。
三、算法分类
有监督学习
(有特征 + 有标签)
| 任务类型 | 说明 | 示例 |
|----------|------|------|
| 分类(标签离散) | 二分类 | 垃圾邮件识别(是/否) |
| | 多分类 | 手写数字识别(0-9) |
| 回归(标签连续) | 数值预测 | 房价预测、温度预测 |
无监督学习
(有特征 + 无标签)
- **聚类分析**:根据样本间的相似性自动分组
半监督学习
(有特征 + 部分有标签)
- **目的**:降低标注标签的成本
强化学习
(根据环境状态行动)
四要素
| 要素 | 说明 |
|------|------|
| Agent(智能体) | 大脑,做决策 |
| 环境 | Agent身处的世界 |
| 行动 | Agent做的事 |
| 奖励 | 环境对Agent的反馈 |
强化学习里的Agent
-
Agent = 做出决策并执行动作的实体
-
**注意**:现在LLM领域的"Agent"(如AutoGPT),是借用了强化学习里Agent这个名字,用来形容"能自己规划、用工具的大模型"。本质上是命名借用。
> RL里的Agent是一个从零开始、通过试错信号训练的决策实体,核心是策略网络;LLM里的Agent是以预训练大模型为大脑的智能体,无需再训练,能通过推理调用外部工具完成开放任务。
四、决策链公式
| 步骤 | 操作 | 示例 |
|------|------|------|
| 1. 定任务类型 | 看"标签"是什么 | 标签是"下雨/不下雨"(离散的类别)→ 分类任务 |
| 2. 定学习方式 | 看数据有没有标签 | 历史数据有"温度、湿度"和"是否下雨"标签 → 监督学习 |
| 3. 筛选候选算法 | 从能解决"监督分类"的算法里选 | KNN、逻辑回归、决策树、SVM |
| 4. 选最终算法 | 根据数据量、可解释性、效率等权衡 | 数据量小、要求可解释 → 决策树;只关心准确率 → KNN |
五、建模流程
1. 获取数据
根据任务获取数据(公开数据集、爬虫、业务数据等)
2. 数据预处理
-
缺失值处理
-
异常值处理
-
数据标准化/归一化
-
数据划分(训练/验证/测试)
-
数据清洗
3. 特征工程(核心)
> 定义:利用专业背景知识处理数据,让算法效果最好
| 操作 | 说明 |
|------|------|
| 特征提取 | 从原始数据中提取与任务相关的特征 |
| 特征选择 | 从特征中选出重要特征 |
| 特征组合 | 把多个特征合并成一个 |
| 特征降维 | 降低原始数据的维度 |
> 数据处理之后确实有了特征,但是还是不能直接拿来用。需要对特征做提取、选择、组合、降维这些操作,然后这些特征才能作为 X 去训练。
4. 模型训练
选择算法,用训练集学习参数
5. 模型评估
分类指标
| 指标 | 说明 |
|------|------|
| 准确率 | 预测正确的比例 |
| 精确率 | 预测为正例中实际为正例的比例 |
| 召回率 | 实际为正例中被预测出来的比例 |
| F1 | 精确率和召回率的调和平均 |
| AUC | ROC曲线下的面积 |
回归指标
| 指标 | 说明 |
|------|------|
| MAE | 平均绝对误差 |
| MSE | 均方误差 |
聚类指标
| 指标 | 说明 |
|------|------|
| CH指标 | 衡量聚类紧凑性 |
| 轮廓系数(SC) | 衡量样本与自身簇的相似度 |
6. 模型拟合问题
| 问题 | 表现 | 原因 |
|------|------|------|
| 正好拟合 | 模型对样本点拟合情况良好 | --- |
| 过拟合 | 训练集表现好,测试集表现差 | 模型太复杂、数据不纯、训练数据太少 |
| 欠拟合 | 训练集表现差,测试集表现也差 | 模型太简单 |
| 概念 | 说明 |
|------|------|
| 泛化 | 模型在新数据集(非训练数据)上的表现能力 |
| 奥卡姆剃刀原则 | 给定两个泛化误差相同的模型,选更简单的 |
六、总结
总体框架
-
**机器学习是人工智能的核心实现方式之一**,它的本质是让计算机从数据中自动学习规律,而不是由人一步一步写出规则。
-
它依赖三个要素:数据、算法、算力。
四个层次讲清楚机器学习全貌
第一层:机器学习要解决什么任务?(按目标分)
| 任务 | 特点 | 示例 |
|------|------|------|
| 分类 | 标签离散 | 判断"属于哪一类" |
| 回归 | 标签连续 | 预测"是多少" |
| 聚类 | 无标签 | 自动"分群" |
第二层:机器学习怎么学习?(按数据与反馈分)
| 学习方式 | 数据特点 |
|----------|----------|
| 监督学习 | 数据有正确答案(标签) |
| 无监督学习 | 数据无标签 |
| 半监督学习 | 少量标签 + 大量无标签数据 |
| 强化学习 | 没有标签,只有"奖励信号" |
第三层:具体靠什么算法实现
-
线性回归、逻辑回归
-
K近邻(KNN)
-
决策树、随机森林
-
集成学习(XGBoost、LightGBM)
-
聚类算法(K-Means、DBSCAN)
-
神经网络/深度学习
第四层:算法到底在做什么
-
**人做**:选一个带参数的公式结构(如 y = kx + b)
-
**机器做**:通过"猜 → 算损失 → 调参数"的循环,找到最优参数
-
**结果**:得到一个能对新数据做预测的模型
一句话总结
> 机器学习是让计算机从数据中自动总结规律的方法体系。它根据任务目标(分类/回归/聚类)和数据情况(有无标签)选择合适的学习方式(监督/无监督/强化等),再通过具体算法(KNN、线性回归、决策树等)完成从数据到模型的自动构建,最终实现预测或决策。