机器学习（1）

wwww.bo2025-08-15 13:16

1. 机器学习的定义

机器学习是指系统通过分析大量经验数据，从数据中归纳规律，以提升特定任务（如预测、分类）完成效果的过程。其核心逻辑为：基于经验数据→归纳规律→优化任务表现，典型案例为 2016 年阿尔法围棋（AlphaGo）以 4:1 战胜李世石。

主要类型

监督学习：使用带有标签（即已知结果）的数据进行训练，比如用标注了 "垃圾邮件" 或 "正常邮件" 的样本训练模型，使其能判断新邮件的类别。常见算法有线性回归、逻辑回归、决策树、支持向量机等。
无监督学习：训练数据没有标签，机器需要自行发现数据中的隐藏结构，比如将客户按照消费习惯分成不同群体。聚类算法（如 K-means）、降维算法（如主成分分析）是典型代表。
半监督学习：结合少量有标签数据和大量无标签数据进行学习，适用于标签获取成本高的场景，比如医疗影像分析。
强化学习：通过与环境的交互，机器在尝试不同行为的过程中，根据获得的 "奖励" 或 "惩罚" 来调整策略，最终学会最优行为。比如 AlphaGo 下棋、机器人自主导航等。

基本流程

数据收集与预处理：获取相关数据，并进行清洗（去除噪声、缺失值）、转换（标准化、归一化）等操作，为后续学习做准备。
选择模型：根据问题类型（分类、回归、聚类等）和数据特点，挑选合适的算法模型。
训练模型：用处理好的数据对模型进行训练，通过调整模型参数，使模型能更好地拟合数据规律。
评估与优化：用测试数据检验模型性能，若效果不佳（如准确率低、过拟合），则调整模型参数、更换算法或优化数据，重复训练过程。
应用模型：将训练好的模型用于实际场景，对新数据进行预测或决策。

2. 基本术语

术语	定义	示例（文档表格简化）
数据集	数据记录的集合	含 17 条西瓜数据的集合（编号 1-17）
样本	数据集中的单条记录	编号 1 的记录：色泽 "青绿"、根蒂 "蜷缩" 等
特征（属性）	描述对象性质的事项	西瓜的 "色泽""根蒂""敲声" 等
属性空间	特征张成的空间	由 "色泽""根蒂""敲声" 等特征构成的多维空间
训练集	含标记信息的训练数据	含 "好瓜" 标签的 14 条西瓜数据（编号 1-14）
测试集	用于测试模型的未知标记数据	3 条未标记 "好瓜" 结果的数据（编号 15-17）

3. 学习类型

监督学习 ：使用含 "正确答案"（标记）的数据训练，输出分为两类：
- 分类：输出离散值（如判断西瓜是否为 "好瓜"）；
- 回归：输出连续值（如根据房屋面积、区域预测价格）。
无监督学习 ：仅使用无标记数据，自主发现数据结构，典型为聚类（如将样本分为 4 类），应用案例如 "向购买尿布的人推荐葡萄酒" 的关联分析。
集成学习：通过构建并结合多个学习器提升任务效果。

4. 模型评估与选择

核心指标：
- 错误率：分类错误样本占比；精度 = 1 - 错误率；
- 残差：预测输出与真实输出的差异；
- 损失函数：衡量预测偏差，值越小模型越好（如通过直线拟合房屋价格与大小的关系）。

拟合问题及处理：

类型	定义	处理方式
过拟合	过度学习训练数据噪声，泛化能力差	增加数据、降维、正则化、集成学习
欠拟合	未充分学习数据特征，拟合不足	增加特征、提高模型复杂度、减小正则化系数

评估原则：
- 奥卡姆剃刀：选择能解释数据的最简单模型；
- 没有免费的午餐（NFL）：不存在对所有问题都最优的算法，需结合具体任务。
评估方法：
- 留出法：按 7:3 划分训练集与测试集，需保持数据分布一致（如分层采样）；
- 交叉验证法：将数据分为 k 个互斥子集，用 k-1 个训练、1 个测试，取 k 次结果均值（如 10 折交叉验证）。
评估指标：
- 分类结果：TP（真正例）、FP（假正例）、TN（真反例）、FN（假反例）；
- 查准率（P=TP/(TP+FP)）：预测为正例的样本中实际为正例的比例；
- 查全率（R=TP/(TP+FN)）：实际为正例的样本中被正确预测的比例；
- P-R 图：直观对比模型性能，曲线被完全包住的模型更优。

5. 应用领域

涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理（如 Google Translate）等。

关键问题

问题：机器学习的核心目标是什么？其基本流程可概括为哪几步？
答案：核心目标是让系统从大量经验数据中归纳规律，提升特定任务的完成效果。基本流程为：收集经验数据→归纳规律→用规律预测新问题→通过反馈优化规律。
问题：监督学习与无监督学习的核心区别是什么？分别适用于哪些场景？
答案：核心区别在于是否使用带标记（"正确答案"）的数据。监督学习用带标记数据训练，适用于分类（如判断 "好瓜"）、回归（如预测房价）；无监督学习用无标记数据，适用于发现数据隐藏结构（如聚类分群、购物篮关联分析）。
问题：什么是过拟合？导致过拟合的主要原因及处理方式是什么？
答案：过拟合是模型过度学习训练数据中的噪声，导致对新数据泛化能力差的现象。主要原因是训练数据噪声多或模型过于复杂。处理方式包括：增加训练数据、降维（丢弃无关特征）、正则化（减小参数规模）、采用集成学习（结合多个模型降低风险）。

上一篇：Redis 如何保证数据安全？

下一篇：Spring Boot + Redis Cluster 测试

热门推荐

01GitHub 镜像站点 02安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）03Labelme从安装到标注：零基础完整指南 04Linux下V2Ray安装配置指南 05【踩坑笔记】50系显卡适配的 PyTorch 安装 06jdk21下载、安装（Windows、Linux、macOS）07手把手教你通过Gemini3 pro 学生认证，白用一年，手慢无！08GitLab 零基础入门指南：从安装到项目管理全流程 09UV安装并设置国内源 10Opencode CLI 安装成功,但是启动失败