DL：深度学习的主要任务

深度学习（Deep Learning）是机器学习的重要分支。它以多层神经网络为核心，通过大量数据训练，使模型能够自动学习数据中的特征表示，并完成识别、预测、理解、生成和决策等任务。

与许多传统机器学习方法相比，深度学习更强调让模型在训练过程中自动学习特征。以图像为例，模型可以从像素中逐层提取边缘、纹理、局部形状、对象部件，最终形成对整张图像的语义判断；以文本为例，模型可以从词语、句子和上下文中学习语义关系；以视频为例，模型还需要理解连续画面中的动作变化和时间结构。

因此，深度学习特别适合处理图像、语音、文本、视频、时间序列等复杂数据。理解深度学习的主要任务，有助于把握它在人工智能系统中的基本分工。

一、深度学习任务的基本划分

深度学习面对的问题并不只是"分类"或"回归"。在真实应用中，它通常围绕复杂数据展开，例如：

• 识别图像中有什么对象

• 判断语音中说了什么内容

• 理解一句话或一段文本的含义

• 预测一段序列的未来变化

• 生成图片、文本、语音或视频

• 将复杂数据转换为向量表示

• 在环境中学习怎样行动

从整体上看，深度学习的主要任务可以概括为六类。

图 1：深度学习的主要任务分类

1、感知任务

从图像、语音、视频等数据中识别对象、内容、结构和变化。

2、序列建模任务

处理文本、语音、时间序列、视频帧等具有顺序关系的数据。

3、生成任务

学习数据分布，并生成新的文本、图像、音频或视频。

4、表示学习任务

把复杂数据转换为便于计算、比较、检索和迁移的向量表示。

5、多模态任务

联合处理文本、图像、音频、视频等不同类型的信息。

6、深度强化学习任务

使用神经网络与环境交互，学习更优行动策略。

需要注意的是，这些任务并不是完全割裂的。一个现代人工智能系统往往会同时涉及多种任务。

例如，大语言模型既涉及序列建模，也涉及文本生成和表示学习；多模态模型通常同时包含图像理解、文本理解、跨模态表示和生成能力；自动驾驶系统则可能同时使用目标检测、图像分割、轨迹预测和行为决策。

二、感知任务：让模型识别对象、内容与结构

感知任务（Perception Task）是深度学习最典型的应用方向之一。它主要处理图像、语音、视频等感知数据，使模型能够识别其中的对象、内容、位置、结构和变化。

例如：

• 在图片中识别猫、狗、汽车和行人

• 在医学影像中识别病灶区域

• 在工业场景中检测产品缺陷

• 在语音中识别说话内容

• 在视频中理解人物动作和事件变化

感知任务的核心是：把原始感知数据转换为可理解的语义结果。

以图像为例，一张图片在计算机中本质上是由像素组成的数组。深度学习模型要做的，不是直接"看懂"图片，而是通过多层网络逐步提取特征，从低级视觉模式逐渐形成高级语义判断。

图 2：图像感知任务的一般过程

在深度学习中，感知任务常由卷积神经网络（Convolutional Neural Network，CNN）、视觉 Transformer（Vision Transformer，ViT）等模型完成。

1、图像分类

图像分类（Image Classification）是最基础的视觉任务。它的目标是判断一张图像属于哪个类别。

例如：

• 判断一张图片是猫还是狗

• 判断手写数字是 0 到 9 中的哪一个

• 判断医学影像是否存在某种疾病迹象

• 判断产品图片是否存在质量缺陷

若用数学形式表示，图像分类可以写成：

其中：

• x 表示输入图像

• f 表示深度学习模型

• ŷ 表示模型预测的类别

y 表示真实标签，任务目标是让 ŷ 尽可能接近 y。

对于多分类任务，模型通常会输出每个类别的概率：

其中：

• z 表示模型最后一层输出的原始分数

• p̂ 表示各类别的预测概率

softmax 常用于把多个分数转换为概率分布，概率最大的类别通常作为最终预测结果。

例如，在手写数字识别任务中，模型输入一张数字图片，输出 0 到 9 共 10 个类别的概率，概率最高的类别就是模型的判断结果。

图 3：图像分类任务

2、目标检测

目标检测（Object Detection）不仅要判断图像中有什么，还要指出对象在哪里。

例如，在自动驾驶场景中，模型不仅要识别"行人""汽车""交通灯"，还要给出它们在图像中的位置。这通常通过边界框（Bounding Box）表示。

一个目标检测结果通常包含两类信息：

• 类别：对象是什么

• 位置：对象在图像中的区域

其结果可以简化表示为：

其中：

• c 表示预测类别

• b 表示边界框位置

• ŷ 表示目标检测结果

边界框常见形式为：

其中：

• x 表示边界框中心点的横坐标

• y 表示边界框中心点的纵坐标

• w 表示边界框宽度

• h 表示边界框高度

常见目标检测模型包括 R-CNN 系列、YOLO 系列、SSD 和 DETR 等。

目标检测比图像分类更复杂，因为它同时包含"识别"和"定位"两个目标。

图 4：图像分类与目标检测的区别

3、图像分割

图像分割（Image Segmentation）进一步要求模型判断图像中每个像素属于哪个类别。

与目标检测相比，图像分割的结果更加精细。目标检测通常用矩形框标出对象的大致位置，而图像分割需要勾勒出对象的具体轮廓。

常见图像分割任务包括：

• 语义分割（Semantic Segmentation）

• 实例分割（Instance Segmentation）

• 医学影像分割

• 道路场景分割

• 智能抠图

语义分割的目标可以表示为：

其中：

• x 表示输入图像

• M 表示像素级类别掩码。M 中的每个位置对应原图中一个像素的类别

例如，在道路场景分割中，模型需要把每个像素判断为道路、天空、车辆、行人、建筑物等类别。

图 5：视觉感知任务的层级关系

从任务粒度看，图像分类最粗，目标检测更精细，图像分割最细。

4、语音识别与视频理解

除了图像任务，语音识别和视频理解也是重要的感知任务。

语音识别（Speech Recognition）的目标是把语音信号转换为文字内容，可以简化表示为：

其中：

• a 表示输入语音信号

• t̂ 表示模型识别出的文本

• f 表示语音识别模型

视频理解（Video Understanding）则要求模型理解连续画面中的对象、动作和事件。例如：

• 判断视频中正在发生什么动作

• 检测视频中的异常行为

• 识别体育比赛中的关键事件

• 理解监控视频中的人员活动

视频数据不仅包含空间信息，还包含时间变化。因此，视频理解通常比单张图像识别更复杂。

三、序列建模任务：理解有顺序关系的数据

序列建模任务（Sequence Modeling Task）处理的是有先后顺序的数据。文本、语音、时间序列、视频帧都属于典型序列数据。

例如：

• 一句话中的词语有前后顺序

• 一段语音中的声音帧按时间排列

• 股票价格、气温、电力负荷按时间变化

• 视频由连续帧组成

序列建模的核心是：模型不仅要理解单个元素，还要理解元素之间的上下文关系。

一个序列可以表示为：

其中：

• x 表示完整序列

• xₜ 表示第 t 个时间步或位置上的元素

• T 表示序列长度

序列建模的目标，是根据已有序列信息完成分类、预测、生成或转换。

图 6：序列建模任务

1、文本分类

文本分类（Text Classification）是自然语言处理中的基础任务。它的目标是判断一段文本属于哪个类别。

例如：

• 判断一条评论是正面还是负面

• 判断一封邮件是否为垃圾邮件

• 判断一篇新闻属于财经、体育还是科技

• 判断用户问题属于哪个意图类别

文本分类可以表示为：

其中：

• x₁,x₂,...,xₜ 表示文本中的词、字或子词

• f 表示文本模型

• ŷ 表示预测类别

与普通分类不同，文本分类需要考虑词语顺序和上下文含义。例如，"不太好"和"好"只差几个字，但语义明显不同。

常见文本模型包括循环神经网络（Recurrent Neural Network，RNN）、长短期记忆网络（Long Short-Term Memory，LSTM）、门控循环单元（Gated Recurrent Unit，GRU）、Transformer 和 BERT 类预训练模型等。

2、序列预测

序列预测（Sequence Prediction）是根据已有序列预测未来内容。

例如：

• 根据过去几天气温预测明天气温

• 根据历史销量预测未来销量

• 根据前面的词预测下一个词

• 根据视频前几帧预测后续动作

序列预测可以写成：

其中：

• x₁,x₂,...,xₜ 表示已有序列

• x̂ₜ₊₁ 表示模型预测的下一个元素

• f 表示序列预测模型

如果预测多个未来时间步，则可以写成：

其中：

• k 表示需要预测的未来步数

模型需要根据历史趋势推断未来变化。

在时间序列预测中，深度学习模型常用于处理非线性关系、长时间依赖和多变量输入。

3、机器翻译

机器翻译（Machine Translation）是典型的序列到序列任务。它的目标是把一种语言的句子转换成另一种语言的句子。

例如：

• 中文翻译成英文

• 英文翻译成日文

• 法文翻译成中文

其基本形式可以写成：

其中：

• x₁,x₂,...,xₙ 表示源语言序列

• y₁,y₂,...,yₘ 表示目标语言序列

• n 和 m 可以不同，说明输入和输出长度不一定相等

图 7：序列到序列任务

机器翻译并不是逐词替换，而是要理解上下文、语法结构和语义关系。因此，它是深度学习在自然语言处理中的重要任务之一。

四、生成任务：让模型创造新的内容

生成任务（Generative Task）的目标不是简单判断类别，也不是只预测一个数值，而是让模型生成新的数据。

例如：

• 根据提示生成一段文字

• 根据文字生成一张图片

• 根据文本生成语音

• 根据已有旋律生成音乐

• 根据已有视频生成后续画面

• 根据草图、线稿或低清图像生成新图像

生成任务的核心是：模型需要学习数据分布，并从这种分布中生成新的样本。

从数学角度看，真实数据可以表示为：

其中：

• x 表示真实数据样本

• p_data(x) 表示真实数据分布

• x ∼ p_data(x) 表示样本 x 来自真实数据分布

生成模型学习到的分布可以表示为：

其中：

• pθ(x) 表示模型学习到的数据分布

• θ 表示模型参数

• 目标是让 pθ(x) 尽可能接近 p_data(x)

这说明，生成任务的本质不是简单记忆训练样本，而是学习样本背后的规律，并生成符合这种规律的新内容。

2、文本生成

文本生成（Text Generation）是自然语言生成中的核心任务。它的目标是根据已有上下文生成后续文本。

例如：

• 自动续写文章

• 生成摘要

• 生成问答回复

• 生成代码

• 生成对话内容

在语言模型中，文本生成通常可以表示为：

其中：

• xₜ 表示第 t 个词、字或 token

• p(xₜ ∣ x₁,x₂,...,xₜ₋₁) 表示在前文条件下生成当前 token 的概率

• ∏ 表示连乘

• 整段文本的概率可以分解为逐步生成每个 token 的条件概率

这说明，文本生成通常不是一次性凭空产生整篇文本，而是根据已有上下文一步一步生成后续内容。

图 8：文本生成的一般过程

大语言模型（Large Language Model，LLM）就是典型的文本生成模型。它通过大规模语料训练，学习语言结构、知识关联和上下文表达方式。

2、图像生成

图像生成（Image Generation）的目标是让模型生成新的图像。

例如：

• 根据文字提示生成图片

• 根据线稿生成彩色图像

• 根据低清图像生成高清图像

• 对旧照片进行修复和上色

• 生成风格化人像、场景图或设计图

图像生成可以简化表示为：

其中：

• z 表示随机噪声或潜在向量

• G 表示生成模型

• x̂ 表示生成图像

如果是文本生成图像，则可以写成：

其中：

• c 表示文本条件

• z 表示随机噪声或潜在变量

• G 表示条件生成模型

• x̂ 表示生成图像

常见图像生成模型包括生成对抗网络（Generative Adversarial Network，GAN）、变分自编码器（Variational Autoencoder，VAE）和扩散模型（Diffusion Model）等。

在扩散模型中，模型通常先向图像逐步加入噪声，再学习如何从噪声中逐步恢复图像。这类方法已经成为当前图像生成的重要技术路线。

3、语音、音频与视频生成

语音生成（Speech Generation）、音频生成（Audio Generation）和视频生成（Video Generation）也是深度学习的重要生成任务。

例如：

• 文本转语音

• 语音克隆

• 音乐生成

• 音效生成

• 视频补帧

• 根据文本生成短视频

文本转语音任务可以表示为：

其中：

• t 表示输入文本

• â 表示生成的语音信号

• f 表示文本到语音的生成模型

视频生成可以简化表示为：

其中：

• z 表示随机噪声或潜在变量

• c 表示文本、图像或其他条件信息

• G 表示视频生成模型

• v̂ 表示生成视频

语音生成不仅要读出文字，还要控制发音、语调、停顿、节奏和情感。视频生成则需要同时保持画面质量、对象一致性和时间连续性，因此通常比静态图像生成更加复杂。

五、表示学习任务：把复杂数据转换为向量表示

表示学习（Representation Learning）是深度学习的核心思想之一。它的目标是让模型自动学习数据的有效表示，而不是完全依赖人工设计特征。

所谓"表示"，可以理解为模型内部对数据的编码方式。

例如：

• 把一个词表示为一个向量

• 把一张图像表示为一个特征向量

• 把一个用户表示为一个兴趣向量

• 把一段文本表示为一个语义向量

• 把一段音频表示为一个声学向量

表示学习的基本形式可以写成：

其中：

• x 表示原始输入

• fθ 表示带参数 θ 的神经网络

• h 表示模型学习到的表示向量

• θ 表示模型参数

这说明，深度学习模型不仅会输出最终结果，还会在中间层形成对数据的抽象表示。

1、词向量与语义表示

在自然语言处理中，词向量（Word Embedding）是表示学习的典型例子。它把词语转换为向量，使计算机可以对词语进行数学计算。

例如：

• "苹果"可以表示为一个向量

• "橘子"可以表示为另一个向量

语义相近的词，在向量空间中通常距离较近。

词向量可以写成：

其中：

• w 表示一个词或 token

• e 表示该词对应的向量

• Embedding 表示嵌入层或嵌入函数

如果两个词语语义接近，它们的向量往往也更接近。常用的相似度计算方式是余弦相似度：

其中：

• a 和 b 表示两个向量

• a · b 表示向量点积

• ‖a‖ 和 ‖b‖ 表示向量长度

• 结果越接近 1，通常表示两个向量方向越相似

2、图像表示与跨模态表示

在计算机视觉中，深度学习模型也会把图像转换为特征向量。

例如，一张人脸图像可以被编码成一个向量，用于人脸识别；一张商品图片可以被编码成一个向量，用于相似商品检索。

图像表示可以写成：

其中：

• x 表示输入图像

• f_image 表示图像编码模型

• h_image 表示图像表示向量

在跨模态表示学习中，模型还需要把图像、文本、音频等不同类型的数据映射到统一表示空间。例如：

其中：

• t 表示文本

• x 表示图像

• h_text 表示文本向量

• h_image 表示图像向量

如果文本和图像语义匹配，那么它们在表示空间中的距离应当更近。

图 9：跨模态表示学习

表示学习之所以重要，是因为许多复杂任务都依赖好的表示。表示质量越高，分类、检索、推荐、生成和推理往往越容易完成。

3、预训练与迁移学习

在深度学习中，表示学习常常与预训练（Pre-training）和迁移学习（Transfer Learning）结合使用。

预训练是指先让模型在大规模数据上学习通用表示，再将这些表示迁移到具体任务中。迁移学习则是把一个任务中学到的知识，用到另一个相关任务中。

这一过程可以简化表示为：

其中：

• θ_pretrain 表示预训练阶段得到的模型参数

• θ_finetune 表示在具体任务上微调后的模型参数

• → 表示参数从通用任务迁移到具体任务

例如，一个在大规模图像数据上预训练的视觉模型，可以迁移到医学影像分类、工业缺陷检测等任务中；一个在大规模文本数据上预训练的语言模型，可以迁移到问答、摘要、分类、翻译等任务中。

这说明，深度学习中的表示并不只服务于单一任务，还可以成为多个任务共享的基础能力。

六、多模态任务：联合理解不同类型的数据

多模态任务（Multimodal Task）是深度学习发展的重要方向。它要求模型能够同时处理文本、图像、音频、视频等不同类型的数据，并在它们之间建立语义联系。

例如：

• 根据图片回答问题

• 根据文字生成图片

• 根据视频内容生成摘要

• 根据语音和画面理解会议内容

• 根据图文信息判断商品是否匹配

• 根据图片和文本进行跨模态检索

多模态任务的核心是：不同类型的数据虽然形式不同，但可以在语义层面建立联系。

图 10：多模态任务的一般结构

1、图文理解

图文理解（Vision-Language Understanding）要求模型同时理解图像内容和文本问题。

例如，用户输入一张交通场景图片，并提出问题：

go 复制代码

"图中是否有人正在过马路？"

模型需要先识别图像中的道路、行人、车辆和交通环境，再结合文本问题给出回答。

图文问答可以表示为：

其中：

• q 表示文本问题

• x_image 表示输入图像

• a 表示模型回答

• f 表示图文理解模型

图文理解不是简单的"看图说话"，而是要把视觉信息与语言问题结合起来。

2、跨模态检索

跨模态检索（Cross-modal Retrieval）是指用一种模态的信息去检索另一种模态的信息。

例如：

• 输入一句文字，检索相关图片

• 输入一张图片，检索相关文字描述

• 输入一段音频，检索相关视频片段

跨模态检索依赖统一表示空间。可以简化表示为：

其中：

• h_text 表示文本向量

• h_image 表示图像向量

• sim 表示相似度函数

相似度越高，表示文本与图像越匹配。

跨模态检索说明，深度学习不仅可以处理单一类型数据，还可以在不同类型数据之间建立语义桥梁。

七、深度强化学习任务：用神经网络学习行动策略

深度强化学习（Deep Reinforcement Learning）是深度学习与强化学习结合形成的方向。它使用神经网络表示策略函数或价值函数，使智能体能够在复杂环境中学习行动策略。

普通强化学习常用于状态空间较小的问题，而深度强化学习适合处理高维状态，例如：

• 游戏画面

• 机器人传感器数据

• 自动驾驶环境感知信息

• 连续控制任务

在深度强化学习中，智能体（Agent）通过与环境（Environment）交互，不断尝试动作，并根据奖励反馈调整策略。

图 11：深度强化学习交互过程

1、策略学习

策略（Policy）表示智能体在某个状态下选择动作的规则。

在深度强化学习中，策略可以由神经网络表示：

其中：

• s 表示当前状态

• a 表示智能体选择的动作

• πθ 表示由参数 θ 控制的策略网络

如果动作是离散的，策略也可以输出每个动作的概率：

其中：

• πθ(a ∣ s) 表示在状态 s 下选择动作 a 的概率

模型训练的目标是让高价值动作获得更高概率。

例如，在游戏智能体中，输入可以是当前游戏画面，输出可以是向上、向下、向左、向右、攻击、跳跃等动作的概率。

2、价值学习

价值函数（Value Function）用于评估某个状态或某个动作在长期来看是否有利。

状态价值函数可以写成：

其中：

• V(s) 表示状态 s 的长期价值

价值越高，说明从该状态出发越可能获得较高累积奖励。

动作价值函数可以写成：

其中：

• Q(s,a) 表示在状态 s 下执行动作 a 的长期价值

它不仅评价当前状态，也评价具体动作。

在深度 Q 网络（Deep Q-Network，DQN）中，Q 函数由神经网络近似：

其中：

• θ 表示神经网络参数

• 模型输入状态 s，输出不同动作的价值估计

• 智能体通常选择 Q 值较高的动作

深度强化学习的核心难点在于：模型不仅要识别环境状态，还要在长期奖励、探索与利用之间做权衡。

八、深度学习任务之间的区别与联系

深度学习任务虽然形式多样，但并不是彼此孤立的。

图 12：深度学习任务之间的关系

感知任务强调从复杂输入中识别对象和结构，例如图像分类、目标检测、图像分割、语音识别和视频理解。

序列建模任务强调处理有顺序关系的数据，例如文本分类、机器翻译、语音识别和时间序列预测。

生成任务强调学习数据分布，并创造新的内容，例如文本生成、图像生成、语音生成、音乐生成和视频生成。

表示学习任务强调学习数据的内部表示。它往往不是最终应用本身，而是支撑分类、检索、推荐、生成和推理的基础能力。

多模态任务强调联合处理不同类型的数据，使模型能够在文本、图像、音频和视频之间建立联系。

深度强化学习任务强调在交互过程中学习行动策略。它不只是"看懂数据"，还要根据环境反馈决定"怎样行动"。

如果用更直观的话概括：

• 感知任务回答"看到了什么、听到了什么"

• 序列建模任务回答"前后关系是什么、接下来会怎样"

• 生成任务回答"能否创造新的内容"

• 表示学习任务回答"如何把复杂数据变成可计算的表示"

• 多模态任务回答"如何联合理解不同类型的信息"

• 深度强化学习任务回答"在环境中应该怎样行动"

从技术角度看，很多现代系统并不会只使用一种任务。例如，自动驾驶系统可能同时使用目标检测、图像分割、轨迹预测和强化学习；大语言模型既涉及序列建模，也涉及生成任务和表示学习；多模态模型则同时处理文本、图像、音频和视频。

因此，理解深度学习的主要任务，不只是记住若干任务名称，更重要的是理解：深度学习如何围绕数据表示、模式识别、内容生成、多模态理解和行为决策，构建完整的智能系统。

📘 小结

深度学习的主要任务包括感知、序列建模、生成、表示学习、多模态理解和深度强化学习。它通过多层神经网络学习复杂数据表示，既能识别内容、理解序列，也能生成数据、连接多种模态，并支持智能决策。

"点赞有美意，赞赏是鼓励"