文章目录
- [1 引言](#1 引言)
-
- [1.1 日常生活中的机器学习](#1.1 日常生活中的机器学习)
- [1.2 机器学习中的关键组件](#1.2 机器学习中的关键组件)
- [1.3 各种机器学习问题](#1.3 各种机器学习问题)
- [1.4 起源](#1.4 起源)
- [1.5 深度学习的发展](#1.5 深度学习的发展)
- [1.6 深度学习的成功案例](#1.6 深度学习的成功案例)
- [1.7 特点](#1.7 特点)
- [1.8 小结](#1.8 小结)
1 引言
传统软件开发依赖程序员预设所有业务逻辑和规则,这是一个非凡的人类认知壮举。但对于许多复杂任务(如天气预测、图像识别、自动问答),人类无法直接编写完美的逻辑规则,因为这些任务的模式可能动态变化、内部关系极其复杂。机器学习(ML)则提供了不同的解决方案:它是一类能够从经验(数据或交互)中学习的技术,其性能可随经验积累而自主提高 ,这与执行固定逻辑的传统程序有本质区别。深度学习(DL) 是ML中一个特别强大的分支,它正在推动计算机视觉、自然语言处理等领域的革命性创新,本书将重点介绍其基础知识。
1.1 日常生活中的机器学习
机器学习已渗透日常生活。以使用智能手机导航为例:从语音唤醒("Hey Siri")到语音识别,再到路线规划,几秒内便涉及多个ML模型。唤醒词识别 任务凸显了传统编程的困境:输入是每秒约44000个样本的原始音频,无法直接编写规则映射到"是/否"输出。机器学习的解决范式是 "用数据编程":
- 收集带标签的数据集(含/不含唤醒词的音频)。
- 定义模型族:一个由参数(如同旋钮)控制的灵活程序,调整参数即改变其行为。
- 应用学习算法 :用数据自动寻找使模型性能最优的最佳参数集。
学习(训练) 是一个迭代过程:随机初始化模型 -> 获取带标签数据样本 -> 调整参数以提升模型在这些样本上的表现 -> 反复迭代直至性能满意。
1.2 机器学习中的关键组件
所有ML问题都包含四个核心组件:
- 数据 :学习的经验来源。由许多样本 (数据点)组成,每个样本包含特征 (属性)和待预测的标签 (目标)。数据需满足一定质量、规模和代表性 ,警惕数据偏见(如样本不均衡、包含历史社会不公)导致模型产生有害偏差。深度学习尤其擅长处理变长数据(如图像、文本)。
- 模型 :负责对数据进行转换和预测。深度学习使用由多层神经网络构成的、能进行复杂多层次变换的强大模型。
- 目标函数(损失函数) :量化模型有效性的度量,需通过优化使其最小化(如回归用平方误差 ,分类用交叉熵 )。使用训练数据集 拟合参数,用独立的测试数据集 评估模型泛化能力,需严防过拟合(即在训练集上好,在测试集上差)。
- 优化算法 :用于搜索能最小化损失函数的最佳模型参数。梯度下降是最基础且核心的方法,它通过计算梯度并沿降低损失的方向调整参数。
1.3 各种机器学习问题
-
监督学习:从带标签数据中学习从特征到标签的映射。
- 回归:预测连续数值(如房价、降雨量)。本质是回答"有多少"。
- 分类 :预测离散类别。
- 二项/多项分类:如猫狗识别(两类)、手写数字识别(0-9,十类)。
- 模型输出是概率 ,反映了预测的不确定性 。实际决策需结合风险(例如,即使毒蘑菇识别只有20%置信度,也不应食用)。
- 标记问题(多标签分类):为单个样本预测多个不互斥的标签(如为文章标注多个主题)。
- 搜索与排名:不仅检索相关项目,更对结果进行重要性排序(如网页搜索引擎)。
- 推荐系统 :进行个性化推荐。挑战在于数据主要是用户反馈 (显性或隐性),且容易形成反馈循环。
- 序列学习 :处理输入或输出为序列的任务。
- 语音识别:音频序列 → 文本序列。
- 机器翻译:一种语言序列 → 另一种语言序列。
- 文本生成:文本序列 → 音频序列。
-
无监督学习 :从无标签数据中发现内在结构和模式。任务包括聚类 、主成分分析(降维) 、因果关系发现 以及使用生成对抗网络(GAN) 合成数据等。
-
与环境互动及强化学习:
- 离线学习的局限:模型训练与应用环境是断开的。
- 强化学习 :智能体通过与环境交互来学习。在每个时间步,智能体接收观察 ,采取动作 ,获得奖励 ,目标是学习一个能最大化长期累积奖励的策略。
- 核心挑战:信用分配 (哪个动作导致了奖励)、部分可观测性 、探索与利用的权衡。
- 特例:马尔可夫决策过程 (环境完全可观)、上下文赌博机 、多臂赌博机。
1.4 起源
机器学习的理念源远流长:
- 统计学基础:伯努利、高斯等人在概率分布和参数估计上的工作。
- 数据科学先驱:罗纳德·费舍尔在统计理论和实验设计上的贡献,其鸢尾花卉数据集至今仍被使用。
- 理论与计算基础:香农的信息论,以及图灵关于机器智能的思考和"图灵测试"。
- 神经科学启发 :唐纳德·赫布提出的 "赫布学习" 规则,为神经网络学习算法提供了生物原理。
- 早期神经网络 :受生物神经元网络启发,核心思想包括分层处理和反向传播。后因计算力不足和数据稀缺而陷入低谷。
1.5 深度学习的发展
深度学习在21世纪10年代复兴,主要驱动力有:
- 大数据:互联网和廉价传感器产生了海量数据。
- 强大算力 :特别是GPU的普及提供了大规模并行计算能力。
同时,算法创新也至关重要:
- 正则化技术 :如Dropout,防止复杂模型过拟合。
- 注意力机制:有效解决长序列记忆问题,无需大幅增加参数。
- 对抗生成网络:通过生成器与判别器的对抗训练,能合成极其逼真的数据。
- 深度强化学习:将深度学习与强化学习结合,在游戏等领域取得突破。
- 分布式训练算法 :使在成千上万GPU上训练超大模型成为可能。
此外,易用的开源框架(如TensorFlow、PyTorch)极大地降低了研究和应用门槛,加速了领域发展。
1.6 深度学习的成功案例
深度学习已在多个领域达到或超越人类水平:
- 感知任务 :智能助手的语音识别 、ImageNet竞赛中的图像物体识别。
- 游戏AI:AlphaGo(围棋)、DeepStack(扑克)、玩雅达利游戏的DQN。
- 关键应用 :自动驾驶(环境感知)、医学影像分析、科学发现。
- 社会关切 :当前最紧迫的问题并非"超级智能"威胁,而是AI自动化对就业结构 的冲击,以及在信贷、司法等领域算法决策可能带来的公平性与偏见问题。
1.7 特点
深度学习区别于传统机器学习的特点:
- 表示学习 :核心是让模型自动从数据中学习多层次、逐级抽象的表示 ,彻底取代了依赖专业知识的人工特征工程。
- 端到端训练 :构建一个完整的系统并进行联合优化,而非分模块独立设计和调优。
- 从参数化到非参数化:数据充足时,倾向于使用更灵活、拟合能力更强的非参数模型。
- 经验主义与实践性:勇于尝试解决复杂的非凸优化问题,更注重实际效果。
- 强大的开源社区:积极共享工具、模型和代码,形成了快速迭代和知识传播的生态系统。
1.8 小结
机器学习使计算机能利用数据(经验)自主提升任务性能。深度学习 作为其子集,通过端到端 地学习多层次表示 ,取得了突破性进展。其成功是数据 、算力(计算) 和算法三大要素协同演进的结果。如今,深度学习已成为解决众多复杂问题的强大工具,并持续推动科学与技术进步。同时,对其社会影响的审慎思考也必不可少。