第一章:一入侯门"深"似海,深度学习深几许
章节主题: 深度学习的基本概念、影响、与其他学习方法的区别及其方法论。
核心内容笔记:
- 1.1 深度学习的巨大影响
- 深度学习(Deep Learning)是人工智能领域的重要进展,在棋类博弈(如AlphaGo击败李世石、柯洁)、计算机视觉、语音识别、自动驾驶等领域表现优异。
- 2013年被《MIT科技评论》评为十大突破性技术之一。
- 深度学习不仅是算法升级,更被视为一种思维模式升级,将算法问题转变为数据和计算问题。其核心在于让数据自己说话,系统自动从数据中学习,而非人工框定边界。
- 1.2 什么是学习
- 赫伯特·西蒙定义:如果一个系统能通过执行某个过程改进其性能,这个过程就是学习。核心是改善性能。
- 1.3 什么是机器学习 (ML)
- 汤姆·米切尔定义:对某任务(T)和性能评价准则§,程序通过经验(E)积累不断自我完善,即为从经验中学习。需要明确任务T(Task)、性能P(Performance)和经验E(Experience)。
- 弗拉基米尔·万普尼克定义:基于经验数据的函数估计问题。
- 特雷弗·哈斯蒂等人定义:从数据中抽取重要模式和趋势,理解数据内涵的过程。
- 共同点:都强调经验和数据的重要性。ML是自动从大数据中获取知识的方法。
- 1.4 机器学习的4个象限
- 知识可按"可统计/不可统计"和"可推理/不可推理"两个维度划分。
- 传统机器学习 :多处于象限II(可推理,不可统计),依赖人类先验知识提取特征(特征工程),效果依赖特征好坏,但过程相对透明。
- 神经网络/深度学习:多处于象限III(可统计,不可推理),属于统计学习范畴。从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,最后再回到数据的分析与预测中去。
- 1.5 什么是深度学习 (DL)
- 是一种特征表示学习(Feature Representation Learning),由神经网络自动学习如何抓取特征,取代了手动特征工程。
- 机器自己学习的特征对人类是"黑盒",需要大量尝试调整参数。
- 结构上是包含多个隐含层(越多即为越深)的多层感知机。
- 核心是通过组合低层特征形成更抽象的高层表示,能自生成数据的中间表示。
- 需要大量数据(大数据)。
- 余凯观点:可能"大数据+复杂模型"能更好提升性能。
- 1.6 "恋爱"比喻深度学习
- 输入层:初识的吸引因素(外貌、性格等)是参数。
- 隐含层:热恋磨合期,不断调整相处方式(相当于调整参数权重)。
- 输出层:稳定期,结果好坏取决于磨合调整的结果。
- 1.7 深度学习的方法论:"端到端"学习 (End-to-End)
- 输入原始数据,直接输出最终目标,中间过程不可知(黑箱)。
- 属于复杂性科学范畴,系统具有整体性,难以用还原论(分而治之)解释。强调让"数据自己发声"。
- 类比柏拉图"洞穴之喻":基于局部或投影的认知可能无法归纳全局规律。
- 大数据提供了"全体数据"(n=all),使得DL的整体性方法论成为可能。
- DL网络本身参数量巨大(例:VGGNet 1.4亿,GNMT 3.8亿),是复杂系统。
- 1.8 有没有浅层学习
- 浅层学习:指传统的人工神经网络(隐含层少,通常<3层,需要手动特征选择),如支持向量机(SVM)、Boosting、逻辑回归(LR)等。
- 深度学习:强调模型结构深度(隐含层远不止一层),通常具有更强的数据表征(抽象)能力。
- 网络层数发展迅速(例:Hinton个位数层 -> Google 22层 -> Microsoft 152层 -> 商汤1207层)。
- 关键点:"深度"是手段,"表示学习"才是目的。DL利用大数据自动学习特征,更能刻画数据内在信息。
第二章:人工"碳"索意犹尽,智能"硅"来未可知
章节主题: 机器学习的形式化定义、人工智能与深度学习的关系、神经网络的引入及特性、通用近似定理。
核心内容笔记:
- 2.1 信数据者得永生吗
- 数据主义观点:宇宙由数据流构成,个体价值在于对数据处理的贡献。
- 人类处理海量数据的能力有限,需要技术(如AI)作为"支架"来弥补缺陷。
- 2.2 人工智能的"江湖定位"
- 科学发展规律:现象观察 -> 理论提取 -> 人工模拟。
- 人工智能 (AI):用机器(硅基大脑)模拟或重现人脑(碳基大脑)智能的过程。
- "奇点":雷·库兹韦尔预测未来硅基智能与碳基智能可能融合的时刻。
- 2.3 深度学习的归属
- AI领域广泛,包括机器学习、计算机视觉、NLP等。
- 机器学习是实现AI的一种方法,深度学习是实现机器学习的一种技术。
- AI技术分支并非严格树状,而是相互交叉(如DL可用于语音识别、图像识别)。
- DL高度数据依赖,数据量越大性能通常越好,优于传统ML算法的可扩展性。
- 少量数据时,DL性能未必优于传统ML。
- 2.4 机器学习的形式化定义
- 机器学习近似于寻找一个函数 f: X -> Y,将输入空间X映射到输出空间Y。
- 例子:语音识别 (音频 -> 文字),图像识别 (图片 -> 类别),博弈 (棋局 -> 下一步),智能交互 (问句 -> 答句)。
- 机器学习三步走:
- 建模:找一系列函数实现功能。
- 评估:找评价标准评估函数好坏。
- 优化:快速找到性能最佳的函数。
- 实例 (Instance):通常由特征向量构成。
- 特征空间 (Feature Space):所有特征向量存在的空间。
- 向量 :通常指列向量 x = (x^(1), x^(2), ..., x(n))T。
- 监督学习数据:通常是输入输出对 T = {(x_1, y_1), ..., (x_m, y_m)}。
- 任务分类 :
- 回归 (Regression):输入输出均为连续变量。
- 分类 (Classification):输出为有限离散值。
- 标注 (Tagging):输入输出均为变量序列(分类的推广)。
- 机器学习近似于寻找一个函数 f: X -> Y,将输入空间X映射到输出空间Y。
- 2.5 为什么要用神经网络
- AI两大流派:
- 符号主义:知识表示、推理、运用,自顶向下设计规则(目前发展不太好)。
- 连接主义:通过数据训练通用模型,模拟神经元组合,代表为人工神经网络 (ANN),深度学习是其升级版。
- AI两大流派:
- 2.6 人工神经网络的特点 (四"非")
- 非线性:通过激活函数(带阈值)实现。
- 非局限性:整体行为依赖神经元间相互作用,联想记忆是例子。
- 非常定性:具有自适应、自组织、自学习能力,网络权值可迭代更新。
- 非凸性:目标函数可能有多个极值,导致系统演化出多样性。
- 2.7 什么是通用近似定理 (Universal Approximation Theorem)
- 理论上证明:一个包含足够多隐含层神经元的多层前馈网络,能以任意精度逼近任意预定的连续函数。
- 意味着神经网络理论上可近似解决任何(连续函数表示的)问题。
- 注意点 :
- 是"近似"而非"准确"计算,精度靠增加神经元数量提升。
- 被近似函数必须是连续的。
- 争议 :理论可行不代表实践一定最优。单层网络可能需"格外庞大"才能表示复杂函数,且可能无法正确学习和泛化(Ian Goodfellow观点)。暗示了网络深度的重要性。
- 示例:用6个ReLU神经元的单隐含层网络近似 f(x) = x^3 + x^2 - x - 1。在指定区间内近似效果尚可,但区间外泛化能力差,易过拟合。