深度学习之美》读书笔记 - 第一章 & 第二章

第一章：一入侯门"深"似海，深度学习深几许

章节主题： 深度学习的基本概念、影响、与其他学习方法的区别及其方法论。

核心内容笔记：

1.1 深度学习的巨大影响
- 深度学习（Deep Learning）是人工智能领域的重要进展，在棋类博弈（如AlphaGo击败李世石、柯洁）、计算机视觉、语音识别、自动驾驶等领域表现优异。
- 2013年被《MIT科技评论》评为十大突破性技术之一。
- 深度学习不仅是算法升级，更被视为一种思维模式升级，将算法问题转变为数据和计算问题。其核心在于让数据自己说话，系统自动从数据中学习，而非人工框定边界。
1.2 什么是学习
- 赫伯特·西蒙定义：如果一个系统能通过执行某个过程改进其性能，这个过程就是学习。核心是改善性能。
1.3 什么是机器学习 (ML)
- 汤姆·米切尔定义：对某任务(T)和性能评价准则§，程序通过经验(E)积累不断自我完善，即为从经验中学习。需要明确任务T（Task）、性能P（Performance）和经验E（Experience）。
- 弗拉基米尔·万普尼克定义：基于经验数据的函数估计问题。
- 特雷弗·哈斯蒂等人定义：从数据中抽取重要模式和趋势，理解数据内涵的过程。
- 共同点：都强调经验和数据的重要性。ML是自动从大数据中获取知识的方法。
1.4 机器学习的4个象限
- 知识可按"可统计/不可统计"和"可推理/不可推理"两个维度划分。
- 传统机器学习 ：多处于象限II（可推理，不可统计），依赖人类先验知识提取特征（特征工程），效果依赖特征好坏，但过程相对透明。
- 神经网络/深度学习：多处于象限III（可统计，不可推理），属于统计学习范畴。从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，最后再回到数据的分析与预测中去。
1.5 什么是深度学习 (DL)
- 是一种特征表示学习（Feature Representation Learning），由神经网络自动学习如何抓取特征，取代了手动特征工程。
- 机器自己学习的特征对人类是"黑盒"，需要大量尝试调整参数。
- 结构上是包含多个隐含层（越多即为越深）的多层感知机。
- 核心是通过组合低层特征形成更抽象的高层表示，能自生成数据的中间表示。
- 需要大量数据（大数据）。
- 余凯观点：可能"大数据+复杂模型"能更好提升性能。
1.6 "恋爱"比喻深度学习
- 输入层：初识的吸引因素（外貌、性格等）是参数。
- 隐含层：热恋磨合期，不断调整相处方式（相当于调整参数权重）。
- 输出层：稳定期，结果好坏取决于磨合调整的结果。
1.7 深度学习的方法论："端到端"学习 (End-to-End)
- 输入原始数据，直接输出最终目标，中间过程不可知（黑箱）。
- 属于复杂性科学范畴，系统具有整体性，难以用还原论（分而治之）解释。强调让"数据自己发声"。
- 类比柏拉图"洞穴之喻"：基于局部或投影的认知可能无法归纳全局规律。
- 大数据提供了"全体数据"(n=all)，使得DL的整体性方法论成为可能。
- DL网络本身参数量巨大（例：VGGNet 1.4亿，GNMT 3.8亿），是复杂系统。
1.8 有没有浅层学习
- 浅层学习：指传统的人工神经网络（隐含层少，通常<3层，需要手动特征选择），如支持向量机（SVM）、Boosting、逻辑回归（LR）等。
- 深度学习：强调模型结构深度（隐含层远不止一层），通常具有更强的数据表征（抽象）能力。
- 网络层数发展迅速（例：Hinton个位数层 -> Google 22层 -> Microsoft 152层 -> 商汤1207层）。
- 关键点："深度"是手段，"表示学习"才是目的。DL利用大数据自动学习特征，更能刻画数据内在信息。

第二章：人工"碳"索意犹尽，智能"硅"来未可知

章节主题： 机器学习的形式化定义、人工智能与深度学习的关系、神经网络的引入及特性、通用近似定理。

核心内容笔记：

2.1 信数据者得永生吗
- 数据主义观点：宇宙由数据流构成，个体价值在于对数据处理的贡献。
- 人类处理海量数据的能力有限，需要技术（如AI）作为"支架"来弥补缺陷。
2.2 人工智能的"江湖定位"
- 科学发展规律：现象观察 -> 理论提取 -> 人工模拟。
- 人工智能 (AI)：用机器（硅基大脑）模拟或重现人脑（碳基大脑）智能的过程。
- "奇点"：雷·库兹韦尔预测未来硅基智能与碳基智能可能融合的时刻。
2.3 深度学习的归属
- AI领域广泛，包括机器学习、计算机视觉、NLP等。
- 机器学习是实现AI的一种方法，深度学习是实现机器学习的一种技术。
- AI技术分支并非严格树状，而是相互交叉（如DL可用于语音识别、图像识别）。
- DL高度数据依赖，数据量越大性能通常越好，优于传统ML算法的可扩展性。
- 少量数据时，DL性能未必优于传统ML。
2.4 机器学习的形式化定义
- 机器学习近似于寻找一个函数 f: X -> Y，将输入空间X映射到输出空间Y。
  - 例子：语音识别 (音频 -> 文字)，图像识别 (图片 -> 类别)，博弈 (棋局 -> 下一步)，智能交互 (问句 -> 答句)。
- 机器学习三步走：
  1. 建模：找一系列函数实现功能。
  2. 评估：找评价标准评估函数好坏。
  3. 优化：快速找到性能最佳的函数。
- 实例 (Instance)：通常由特征向量构成。
- 特征空间 (Feature Space)：所有特征向量存在的空间。
- 向量：通常指列向量 x = (x^(1), x^(2), ..., x⁽ⁿ⁾⁾T。
- 监督学习数据：通常是输入输出对 T = {(x_1, y_1), ..., (x_m, y_m)}。
- 任务分类 ：
  - 回归 (Regression)：输入输出均为连续变量。
  - 分类 (Classification)：输出为有限离散值。
  - 标注 (Tagging)：输入输出均为变量序列（分类的推广）。
2.5 为什么要用神经网络
- AI两大流派：
  1. 符号主义：知识表示、推理、运用，自顶向下设计规则（目前发展不太好）。
  2. 连接主义：通过数据训练通用模型，模拟神经元组合，代表为人工神经网络 (ANN)，深度学习是其升级版。
2.6 人工神经网络的特点 (四"非")
- 非线性：通过激活函数（带阈值）实现。
- 非局限性：整体行为依赖神经元间相互作用，联想记忆是例子。
- 非常定性：具有自适应、自组织、自学习能力，网络权值可迭代更新。
- 非凸性：目标函数可能有多个极值，导致系统演化出多样性。
2.7 什么是通用近似定理 (Universal Approximation Theorem)
- 理论上证明：一个包含足够多隐含层神经元的多层前馈网络，能以任意精度逼近任意预定的连续函数。
- 意味着神经网络理论上可近似解决任何（连续函数表示的）问题。
- 注意点 ：
  1. 是"近似"而非"准确"计算，精度靠增加神经元数量提升。
  2. 被近似函数必须是连续的。
- 争议：理论可行不代表实践一定最优。单层网络可能需"格外庞大"才能表示复杂函数，且可能无法正确学习和泛化（Ian Goodfellow观点）。暗示了网络深度的重要性。
- 示例：用6个ReLU神经元的单隐含层网络近似 f(x) = x^3 + x^2 - x - 1。在指定区间内近似效果尚可，但区间外泛化能力差，易过拟合。