01引言——李沐《动手学深度学习》个人笔记

文章目录

[1 引言](#1 引言)
- [1.1 日常生活中的机器学习](#1.1 日常生活中的机器学习)
- [1.2 机器学习中的关键组件](#1.2 机器学习中的关键组件)
- [1.3 各种机器学习问题](#1.3 各种机器学习问题)
- [1.4 起源](#1.4 起源)
- [1.5 深度学习的发展](#1.5 深度学习的发展)
- [1.6 深度学习的成功案例](#1.6 深度学习的成功案例)
- [1.7 特点](#1.7 特点)
- [1.8 小结](#1.8 小结)

1 引言

传统软件开发依赖程序员预设所有业务逻辑和规则，这是一个非凡的人类认知壮举。但对于许多复杂任务（如天气预测、图像识别、自动问答），人类无法直接编写完美的逻辑规则，因为这些任务的模式可能动态变化、内部关系极其复杂。机器学习（ML）则提供了不同的解决方案：它是一类能够从经验（数据或交互）中学习的技术，其性能可随经验积累而自主提高 ，这与执行固定逻辑的传统程序有本质区别。深度学习（DL） 是ML中一个特别强大的分支，它正在推动计算机视觉、自然语言处理等领域的革命性创新，本书将重点介绍其基础知识。

1.1 日常生活中的机器学习

机器学习已渗透日常生活。以使用智能手机导航为例：从语音唤醒（"Hey Siri"）到语音识别，再到路线规划，几秒内便涉及多个ML模型。唤醒词识别 任务凸显了传统编程的困境：输入是每秒约44000个样本的原始音频，无法直接编写规则映射到"是/否"输出。机器学习的解决范式是 "用数据编程"：

收集带标签的数据集（含/不含唤醒词的音频）。
定义模型族：一个由参数（如同旋钮）控制的灵活程序，调整参数即改变其行为。
应用学习算法 ：用数据自动寻找使模型性能最优的最佳参数集。
学习（训练） 是一个迭代过程：随机初始化模型 -> 获取带标签数据样本 -> 调整参数以提升模型在这些样本上的表现 -> 反复迭代直至性能满意。

1.2 机器学习中的关键组件

所有ML问题都包含四个核心组件：

数据：学习的经验来源。由许多样本（数据点）组成，每个样本包含特征（属性）和待预测的标签（目标）。数据需满足一定质量、规模和代表性 ，警惕数据偏见（如样本不均衡、包含历史社会不公）导致模型产生有害偏差。深度学习尤其擅长处理变长数据（如图像、文本）。
模型：负责对数据进行转换和预测。深度学习使用由多层神经网络构成的、能进行复杂多层次变换的强大模型。
目标函数（损失函数） ：量化模型有效性的度量，需通过优化使其最小化（如回归用平方误差 ，分类用交叉熵 ）。使用训练数据集 拟合参数，用独立的测试数据集 评估模型泛化能力，需严防过拟合（即在训练集上好，在测试集上差）。
优化算法 ：用于搜索能最小化损失函数的最佳模型参数。梯度下降是最基础且核心的方法，它通过计算梯度并沿降低损失的方向调整参数。

1.3 各种机器学习问题

监督学习：从带标签数据中学习从特征到标签的映射。
- 回归：预测连续数值（如房价、降雨量）。本质是回答"有多少"。
- 分类：预测离散类别。
  - 二项/多项分类：如猫狗识别（两类）、手写数字识别（0-9，十类）。
  - 模型输出是概率，反映了预测的不确定性 。实际决策需结合风险（例如，即使毒蘑菇识别只有20%置信度，也不应食用）。
- 标记问题（多标签分类）：为单个样本预测多个不互斥的标签（如为文章标注多个主题）。
- 搜索与排名：不仅检索相关项目，更对结果进行重要性排序（如网页搜索引擎）。
- 推荐系统 ：进行个性化推荐。挑战在于数据主要是用户反馈 （显性或隐性），且容易形成反馈循环。
- 序列学习 ：处理输入或输出为序列的任务。
  - 语音识别：音频序列 → 文本序列。
  - 机器翻译：一种语言序列 → 另一种语言序列。
  - 文本生成：文本序列 → 音频序列。
无监督学习 ：从无标签数据中发现内在结构和模式。任务包括聚类、主成分分析（降维） 、因果关系发现 以及使用生成对抗网络（GAN） 合成数据等。
与环境互动及强化学习：
- 离线学习的局限：模型训练与应用环境是断开的。
- 强化学习 ：智能体通过与环境交互来学习。在每个时间步，智能体接收观察，采取动作，获得奖励，目标是学习一个能最大化长期累积奖励的策略。
- 核心挑战：信用分配 （哪个动作导致了奖励）、部分可观测性 、探索与利用的权衡。
- 特例：马尔可夫决策过程 （环境完全可观）、上下文赌博机 、多臂赌博机。

1.4 起源

机器学习的理念源远流长：

统计学基础：伯努利、高斯等人在概率分布和参数估计上的工作。
数据科学先驱：罗纳德·费舍尔在统计理论和实验设计上的贡献，其鸢尾花卉数据集至今仍被使用。
理论与计算基础：香农的信息论，以及图灵关于机器智能的思考和"图灵测试"。
神经科学启发 ：唐纳德·赫布提出的 "赫布学习" 规则，为神经网络学习算法提供了生物原理。
早期神经网络 ：受生物神经元网络启发，核心思想包括分层处理和反向传播。后因计算力不足和数据稀缺而陷入低谷。

1.5 深度学习的发展

深度学习在21世纪10年代复兴，主要驱动力有：

大数据：互联网和廉价传感器产生了海量数据。
强大算力 ：特别是GPU的普及提供了大规模并行计算能力。
同时，算法创新也至关重要：

正则化技术 ：如Dropout，防止复杂模型过拟合。
注意力机制：有效解决长序列记忆问题，无需大幅增加参数。
对抗生成网络：通过生成器与判别器的对抗训练，能合成极其逼真的数据。
深度强化学习：将深度学习与强化学习结合，在游戏等领域取得突破。
分布式训练算法 ：使在成千上万GPU上训练超大模型成为可能。
此外，易用的开源框架（如TensorFlow、PyTorch）极大地降低了研究和应用门槛，加速了领域发展。

1.6 深度学习的成功案例

深度学习已在多个领域达到或超越人类水平：

感知任务 ：智能助手的语音识别 、ImageNet竞赛中的图像物体识别。
游戏AI：AlphaGo（围棋）、DeepStack（扑克）、玩雅达利游戏的DQN。
关键应用 ：自动驾驶（环境感知）、医学影像分析、科学发现。
社会关切 ：当前最紧迫的问题并非"超级智能"威胁，而是AI自动化对就业结构 的冲击，以及在信贷、司法等领域算法决策可能带来的公平性与偏见问题。

1.7 特点

深度学习区别于传统机器学习的特点：

表示学习 ：核心是让模型自动从数据中学习多层次、逐级抽象的表示 ，彻底取代了依赖专业知识的人工特征工程。
端到端训练 ：构建一个完整的系统并进行联合优化，而非分模块独立设计和调优。
从参数化到非参数化：数据充足时，倾向于使用更灵活、拟合能力更强的非参数模型。
经验主义与实践性：勇于尝试解决复杂的非凸优化问题，更注重实际效果。
强大的开源社区：积极共享工具、模型和代码，形成了快速迭代和知识传播的生态系统。

1.8 小结

机器学习使计算机能利用数据（经验）自主提升任务性能。深度学习 作为其子集，通过端到端 地学习多层次表示 ，取得了突破性进展。其成功是数据、算力（计算） 和算法三大要素协同演进的结果。如今，深度学习已成为解决众多复杂问题的强大工具，并持续推动科学与技术进步。同时，对其社会影响的审慎思考也必不可少。