零基础学AI人工智能：9.1 机器学习概述

前面的章节系统梳理了基于低代码平台的智能体应用开发，而智能体的核心载体 ------ 大语言模型、计算机视觉、语音交互等能力，本质上都建立在深度学习的技术基础之上。深度学习是机器学习的核心分支，机器学习则是当前人工智能最主流的实现路径。从本篇开始，我们进入机器学习技术体系的学习，从基础概念入手，逐步深入算法原理与工程实现。

本篇作为机器学习系列的开篇，将系统梳理领域内的核心概念、技术边界、标准建模流程与算法分类，搭建完整的知识框架，为后续深入具体算法打下基础。

一、AI、ML、DL 的层级关系

人工智能（Artificial Intelligence，AI）是最宽泛的技术范畴，目标是利用计算机模拟或替代人类的智能行为，涵盖感知、推理、决策、生成等各类能力。其实现路径并不唯一，早期的专家系统、规则引擎都属于人工智能的实现方式，机器学习只是其中的一个主流分支。

机器学习（Machine Learning，ML）是人工智能的核心实现路径，核心逻辑是让模型从历史数据中自动学习规律，而非依赖人工编写固定的业务规则。模型的性能上限由数据质量决定，算法的作用是尽可能逼近这个上限。

深度学习（Deep Learning，DL）是机器学习的子领域，以深度神经网络为核心载体，通过多层神经元搭建的网络结构模拟人脑的信息处理机制，能够自动从原始数据中提取分层特征，实现对复杂模式的拟合。

三者最核心的差异体现在特征处理环节：

传统机器学习依赖人工完成特征工程，需要领域专家设计并提取有效特征，再输入模型完成训练；
深度学习能够端到端地自动完成特征提取与模式学习，无需人工设计特征，更适合处理图像、语音、文本等高维非结构化数据。

二、人工智能的核心三要素

人工智能系统的能力由数据、算法、算力三个核心要素共同决定，三者相辅相成，缺一不可。

2.1 数据

数据是模型学习的原料，决定了模型能力的上限。高质量、大规模、分布合理的数据集，是训练出优秀模型的前提。如果数据存在标注错误、分布偏移、样本缺失等问题，再优秀的算法也无法产出理想的效果。

2.2 算法

算法是模型学习的具体方法，决定了模型逼近数据上限的效率与程度。不同的算法适用于不同的数据形态与业务场景，从经典的线性回归、决策树，到复杂的深度神经网络，各自有其适用边界与优劣势。

2.3 算力

算力是模型训练与推理的硬件基础。尤其是深度学习模型，训练过程需要大量的矩阵运算，高度依赖 GPU 等并行计算硬件。算力的提升，是深度学习能够从理论走向大规模落地的重要硬件支撑。

三、机器学习核心术语

3.1 基础数据概念

样本：单条独立的数据记录，是数据集的最小组成单元。
特征：描述样本属性的变量，是模型输入的核心内容，也称为自变量。特征的质量直接影响模型最终效果。
标签：样本对应的目标结果，是模型需要学习与预测的对象，也称为因变量。

3.2 数据集划分

模型训练过程中，通常将全量数据集按比例划分为两部分，常见划分比例为 8:2 或 7:3：

训练集：用于模型参数学习的数据集，占全量数据的主体。模型通过在训练集上的迭代优化，逐步拟合数据规律。
测试集：用于评估模型泛化能力的数据集，在训练全程不参与模型参数更新，用于模拟真实场景下的未知数据，客观衡量模型的实际表现。

四、模型拟合问题

拟合是指模型学习数据规律的过程。根据学习程度的不同，会出现欠拟合与过拟合两类典型问题，是模型优化过程中最核心的调试方向。

4.1 欠拟合

表现：模型在训练集上表现不佳，在测试集上表现同样不佳，整体预测精度偏低。对应高偏差的特性。
核心原因：模型容量不足，表达能力有限，无法捕捉数据中的基本规律。常见于用简单线性模型拟合非线性关系的场景。
解决方案：提升模型复杂度，例如选用表达能力更强的算法、增加模型参数规模、扩充有效特征维度等。

4.2 过拟合

表现：模型在训练集上表现非常优异，但在测试集上表现大幅下降，模型泛化能力差。对应高方差的特性。
核心原因：模型过于复杂，不仅学习到了数据的通用规律，还拟合了训练集中的噪声与偶然特征，导致对未知数据的适配能力下降。常见诱因包括训练样本量不足、数据纯度低、模型复杂度过高等。
解决方案：

降低模型复杂度，简化模型结构；
增加训练样本数量，提升数据多样性；
引入正则化约束，限制模型参数的规模。

正则化是缓解过拟合的通用手段，主流分为两类：

L1 正则化（对应 Lasso 回归）：对参数的绝对值之和施加惩罚，会使得部分参数收敛为 0，兼具特征选择的效果；
L2 正则化（对应岭回归）：对参数的平方和施加惩罚，会均匀压缩所有参数的大小，避免单个参数权重过高，是工业界更常用的正则化方式。

4.3 泛化能力与选型原则

泛化能力是衡量模型在未见过的新数据集上的拟合效果，是评估模型实用价值的核心指标。机器学习的核心目标就是提升模型的泛化能力，而非在训练集上追求极致精度。

奥卡姆剃刀原则是模型选型的重要指导思想：在泛化能力相近的多个模型中，优先选择结构更简单的模型。简单模型通常具备更好的可解释性与鲁棒性，在真实生产环境中的稳定性更强。

五、机器学习标准建模流程

一个完整的机器学习项目遵循标准化的执行流程，可分为五个核心阶段。

5.1 数据加载

读取原始数据集，完成数据的初步读取与格式转换，为后续处理提供基础数据输入。

5.2 数据预处理

对原始数据做清洗与规整，处理缺失值、异常值、重复值，统一数据格式，修正数据分布问题，从源头保障数据质量。

5.3 特征工程

特征工程是传统机器学习项目中工作量占比最高的环节，直接决定模型效果的上限，主要包含三类工作：

特征提取：从原始数据中提取与业务目标相关的有效特征，将非结构化数据转化为模型可处理的结构化特征。
特征预处理：解决特征的量纲不一致问题，避免不同单位的特征权重失衡。常用方法包括：
归一化：将数据线性缩放到固定区间内，消除量纲影响；
标准化：将数据转换为均值为 0、标准差为 1 的标准分布，适配对数据分布有要求的算法。
特征优化：包含特征降维、特征筛选、特征组合等操作，在保留有效信息的前提下降低特征维度，提升训练效率与模型效果。

5.4 模型训练

选择适配业务场景的算法，将处理好的训练集数据输入模型，通过迭代优化调整模型参数，完成对数据规律的学习。

5.5 模型评估

使用独立的测试集评估训练完成的模型，从准确率、误差、召回率等多个维度衡量模型效果，判断是否满足业务要求。若效果不达标，则回溯到前面的环节做优化调整。

六、机器学习算法分类

根据学习方式与数据特点的不同，机器学习算法可分为四大类范式。

6.1 有监督学习

核心特点：训练数据同时包含特征与标签，模型学习从特征到标签的映射关系。是工业界应用最广泛的一类算法。
根据标签类型的不同，又分为两类任务：

回归任务：标签为连续数值，用于预测数值结果，典型代表为线性回归、逻辑回归。
分类任务：标签为离散类别，用于判断样本所属类别，常用算法包括 K 近邻、逻辑回归、CART 决策树等。

在此基础上，集成学习通过组合多个弱学习器获得更强的泛化能力，分为两大技术路线：

Bagging 路线：并行训练多个独立基模型，通过投票或平均得到最终结果，代表算法为随机森林；
Boosting 路线：串行迭代训练，每一轮重点学习上一轮预测错误的样本，逐步提升精度，代表算法包括 AdaBoost、GBDT、XGBoost。

6.2 无监督学习

核心特点：训练数据只有特征、没有标签，模型自主挖掘数据内在的结构与分布规律。
最典型的是聚类算法，根据样本的特征相似度自动划分类别，代表算法为 KMeans。无监督学习常用于数据探索、用户分群、异常检测等没有明确标注标签的场景。

6.3 半监督学习

核心特点：训练数据中部分有标签、部分无标签，通过少量标注数据引导模型学习方向，结合大量无标注数据提升模型效果。
其核心价值是降低数据标注成本，适合标注成本高昂、大量数据无标签的垂直领域，例如医学影像、工业缺陷检测等场景。

6.4 强化学习

核心机制：通过智能体与环境的交互完成学习，包含智能体、环境状态、行动、奖惩四个核心要素。智能体在特定环境状态下做出决策，环境根据决策结果给予奖励或惩罚，智能体通过不断迭代优化策略，目标是用最少的步骤获取最大的累计奖励。
强化学习适合序列决策类场景，例如游戏 AI、机器人控制、自动驾驶决策等领域。