1. 机器学习的定义
机器学习是指系统通过分析大量经验数据,从数据中归纳规律,以提升特定任务(如预测、分类)完成效果的过程。其核心逻辑为:基于经验数据→归纳规律→优化任务表现,典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石。
主要类型
- 监督学习:使用带有标签(即已知结果)的数据进行训练,比如用标注了 "垃圾邮件" 或 "正常邮件" 的样本训练模型,使其能判断新邮件的类别。常见算法有线性回归、逻辑回归、决策树、支持向量机等。
- 无监督学习:训练数据没有标签,机器需要自行发现数据中的隐藏结构,比如将客户按照消费习惯分成不同群体。聚类算法(如 K-means)、降维算法(如主成分分析)是典型代表。
- 半监督学习:结合少量有标签数据和大量无标签数据进行学习,适用于标签获取成本高的场景,比如医疗影像分析。
- 强化学习:通过与环境的交互,机器在尝试不同行为的过程中,根据获得的 "奖励" 或 "惩罚" 来调整策略,最终学会最优行为。比如 AlphaGo 下棋、机器人自主导航等。
基本流程
- 数据收集与预处理:获取相关数据,并进行清洗(去除噪声、缺失值)、转换(标准化、归一化)等操作,为后续学习做准备。
- 选择模型:根据问题类型(分类、回归、聚类等)和数据特点,挑选合适的算法模型。
- 训练模型:用处理好的数据对模型进行训练,通过调整模型参数,使模型能更好地拟合数据规律。
- 评估与优化:用测试数据检验模型性能,若效果不佳(如准确率低、过拟合),则调整模型参数、更换算法或优化数据,重复训练过程。
- 应用模型:将训练好的模型用于实际场景,对新数据进行预测或决策。
2. 基本术语
术语 | 定义 | 示例(文档表格简化) |
---|---|---|
数据集 | 数据记录的集合 | 含 17 条西瓜数据的集合(编号 1-17) |
样本 | 数据集中的单条记录 | 编号 1 的记录:色泽 "青绿"、根蒂 "蜷缩" 等 |
特征(属性) | 描述对象性质的事项 | 西瓜的 "色泽""根蒂""敲声" 等 |
属性空间 | 特征张成的空间 | 由 "色泽""根蒂""敲声" 等特征构成的多维空间 |
训练集 | 含标记信息的训练数据 | 含 "好瓜" 标签的 14 条西瓜数据(编号 1-14) |
测试集 | 用于测试模型的未知标记数据 | 3 条未标记 "好瓜" 结果的数据(编号 15-17) |
3. 学习类型
- 监督学习 :使用含 "正确答案"(标记)的数据训练,输出分为两类:
- 分类:输出离散值(如判断西瓜是否为 "好瓜");
- 回归:输出连续值(如根据房屋面积、区域预测价格)。
- 无监督学习 :仅使用无标记数据,自主发现数据结构,典型为聚类(如将样本分为 4 类),应用案例如 "向购买尿布的人推荐葡萄酒" 的关联分析。
- 集成学习:通过构建并结合多个学习器提升任务效果。
4. 模型评估与选择
-
核心指标:
- 错误率:分类错误样本占比;精度 = 1 - 错误率;
- 残差:预测输出与真实输出的差异;
- 损失函数:衡量预测偏差,值越小模型越好(如通过直线拟合房屋价格与大小的关系)。
-
拟合问题及处理:
类型 定义 处理方式 过拟合 过度学习训练数据噪声,泛化能力差 增加数据、降维、正则化、集成学习 欠拟合 未充分学习数据特征,拟合不足 增加特征、提高模型复杂度、减小正则化系数 -
评估原则:
- 奥卡姆剃刀:选择能解释数据的最简单模型;
- 没有免费的午餐(NFL):不存在对所有问题都最优的算法,需结合具体任务。
-
评估方法:
- 留出法:按 7:3 划分训练集与测试集,需保持数据分布一致(如分层采样);
- 交叉验证法:将数据分为 k 个互斥子集,用 k-1 个训练、1 个测试,取 k 次结果均值(如 10 折交叉验证)。
-
评估指标:
- 分类结果:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例);
- 查准率(P=TP/(TP+FP)):预测为正例的样本中实际为正例的比例;
- 查全率(R=TP/(TP+FN)):实际为正例的样本中被正确预测的比例;
- P-R 图:直观对比模型性能,曲线被完全包住的模型更优。
5. 应用领域
涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等。
关键问题
-
问题 :机器学习的核心目标是什么?其基本流程可概括为哪几步?
答案:核心目标是让系统从大量经验数据中归纳规律,提升特定任务的完成效果。基本流程为:收集经验数据→归纳规律→用规律预测新问题→通过反馈优化规律。 -
问题 :监督学习与无监督学习的核心区别是什么?分别适用于哪些场景?
答案:核心区别在于是否使用带标记("正确答案")的数据。监督学习用带标记数据训练,适用于分类(如判断 "好瓜")、回归(如预测房价);无监督学习用无标记数据,适用于发现数据隐藏结构(如聚类分群、购物篮关联分析)。 -
问题 :什么是过拟合?导致过拟合的主要原因及处理方式是什么?
答案:过拟合是模型过度学习训练数据中的噪声,导致对新数据泛化能力差的现象。主要原因是训练数据噪声多或模型过于复杂。处理方式包括:增加训练数据、降维(丢弃无关特征)、正则化(减小参数规模)、采用集成学习(结合多个模型降低风险)。