深度学习基础方法全景综述：从网络组件到多模态任务的统一视角（基于《A survey on deep learning fundamentals》）

1 引言：为什么需要一篇"真正讲清楚原理"的深度学习综述

如果回头去看深度学习的发展历史，会发现一个有趣的现象：越是后来者，越容易直接从某个成熟框架、某个火爆模型入门，比如从 ResNet、Transformer、扩散模型开始写代码，却对这些模型背后共有的"深度学习基本结构"和"算法范式"缺乏整体图景。原文《A survey on deep learning fundamentals》试图做的，正是把这些看似支离破碎的研究工作重新放回到一个统一的坐标系中：先理清深度学习的基本组件和网络家族，再从低层视觉、高层视觉、视频、自然语言处理与三维数据处理五大类任务出发，串起各种代表性方法之间的内在联系。

这篇 CSDN 文章的目标，是在不重复论文原文实验表格的前提下，用中文把其中的理论脉络与关键思想梳理出来，让读者能够从一个"工程实践 + 理论结构"的双重视角理解深度学习：一方面知道典型网络是如何搭出来、如何训练、如何规约计算复杂度，另一方面又能看到这些网络在不同任务之间如何迁移、如何被重新组合与改造。为了方便你在写作或学习时插入原文图片、表格，本文会预留若干图片位置，并给出结构化的表格总结，但尽量避免将大量注意力消耗在具体数据集配置和实验数值上，而是把笔墨集中在方法本身。

【图1：深度学习任务总体框架示意图】

接下来，我们沿着原文的思路，从深度学习的基本组件谈起，再逐类任务展开，却刻意淡化时间线式的"史料罗列"，而是重点回答几个问题：深度网络到底在学什么？不同结构如何在表达能力与计算代价之间做权衡？在低层与高层任务中，同一类网络为什么会长出不同的"形态"？又为什么在视频、文本和三维数据上，深度学习看似"跨模态"，其实仍遵循同样的建模理念？

2 深度学习的基本思想：从函数逼近到端到端表征学习

2.1 深度学习作为分层表征学习的统一框架

从理论视角看，深度学习可以被视作一种大规模参数化的函数逼近工具，它用多层非线性变换，把输入数据逐层映射到越来越抽象的表示空间。传统机器学习往往把特征工程和分类器设计分开，而深度学习把"特征"和"分类器"统一在同一个可学习的网络结构里：早期层倾向于学习任务无关的局部模式（边缘、纹理、局部几何），中间层逐渐聚合成更高阶的组合结构，最终层则面向具体任务输出标签、概率或连续值。

原文在综述中大量强调"从组件到任务"的思路：无论是图像去噪还是三维重建，无论是机器翻译还是大语言模型，本质都是在设计一种合适的网络结构 fθ(x)f_\theta(x)fθ(x)，在大规模数据上通过梯度下降找到参数 θ\thetaθ，使它既能表达复杂模式，又不至于在有限计算资源下难以训练。

这种"统一视角"的好处是明显的：你在理解 CNN 的卷积与池化之后，再看 3D 点云网络中的局部邻域运算，或者看 Transformer 中的局部---全局注意力，其实都可以看成是"在特定结构上进行的加权聚合"，只是邻域定义和权值计算方式不同；你在掌握交叉熵、均方误差以及对比损失等基本损失函数后，就能把低层视觉中的重建误差、NLP 中的语言建模损失、视频对齐中的对比学习目标都纳入同一个优化框架来理解。

2.2 深度学习的"组件化"视角：从算子到架构

为了支撑后文对各种网络结构的系统性梳理，原文在早期章节中会把深度学习模型拆分成几个相对独立的"组件层级"：算子级（卷积、全连接、归一化、激活）、模块级（残差块、注意力模块、编码器---解码器）、架构级（ResNet、U-Net、GAN、Transformer 等）以及训练策略级（优化器、正则化、数据增强）。从这个角度讲，所谓"新网络"，往往并不是凭空创造，而是对已有组件的重新组合和改进。

这种组件化视角的一个直接启示是：当你从图像分类转到分割、检测、视频甚至三维数据时，很多"新任务网络"其实都能被拆解成"骨干特征提取 + 若干任务头"的形式；骨干网络（backbone）常常是 ImageNet 等大规模数据集上预训练好的 CNN 或 Vision Transformer，而任务头则负责把通用特征映射到任务特定的输出空间。因此，理解基础组件，是理解整个深度学习生态的前提。

3 深度学习基础组件：算子、损失与训练机制

3.1 前向传播与基本算子：卷积、线性变换与非线性激活

在任何一个深度网络中，前向传播都可以被看作是多层算子的串联组合，每一层执行一次线性变换或局部线性变换，再接一个非线性激活函数。卷积算子本质上是带权局部加权和，通过共享权重与局部感受野结构把空间上的强先验编码到网络中；全连接层则是在高维特征空间上实现全局线性变换，适合在抽象空间中做最终决策。激活函数（ReLU、Leaky ReLU、GELU 等）提供了必要的非线性，使得整个网络不再是简单的线性映射组合，从而具有逼近任意复杂函数的能力。

归一化算子（BatchNorm、LayerNorm 等）则以"稳定训练过程"为主要目标，它通过对中间特征统计量的重参数化，减轻梯度消失或爆炸的风险，同时在一定程度上起到正则化和对输入分布变化不敏感的作用。原文在总结时特别强调，这类算子虽然常常被视为工程细节，但在深层网络能否在有限时间内收敛、能否在大规模任务上保持稳定表现方面具有关键作用。

3.2 损失函数与优化算法：从经验风险最小化到对比学习

在理论层面，深度学习依然遵循经验风险最小化框架：给定数据集 (xi,yi)(x_i, y_i)(xi,yi)，通过最小化损失函数 L(fθ(xi),yi)\mathcal{L}(f_\theta(x_i), y_i)L(fθ(xi),yi) 的经验平均值来估计最优参数。不同任务中损失函数的选择有所不同：分类任务普遍采用交叉熵损失，回归和重建任务使用 L1/L2 损失或结构相似性（如 SSIM）等，生成任务则引入对抗损失、似然损失或扩散过程中的噪声匹配损失。

优化层面，随机梯度下降及其自适应变种（Adam、RMSProp 等）构成了主流方案。原文在讨论时强调了几个关键细节：一是学习率调度与权重衰减对训练稳定性的影响，二是大批量训练中对梯度噪声与泛化能力之间权衡的影响，三是自监督与对比学习在表征学习中的崛起，使得损失函数不再局限于"有标签任务"，而是通过构造正负样本对来驱动网络学习语义丰富的表示。

3.3 正则化、归一化与数据增强：控制泛化误差的三条路径

从泛化理论出发，深度网络之所以在参数远超样本数量的情况下仍具备良好泛化性能，一个核心原因在于：训练过程涵盖了多种形式的"隐式或显式正则化"，包括参数正则（L2、L1、dropout）、结构正则（残差连接、窄瓶颈层）、归一化操作，以及数据层面的增强（随机裁剪、颜色抖动、mixup、CutMix 等）。

在原文的多个任务章节中，我们都能看到类似模式：在低层视觉任务中，噪声模型假设和退化过程模拟本身就构成了一种"物理先验"，将解空间限制在合理范围；在高层视觉和 NLP 中，预训练---微调范式让模型在大规模无标注数据上先学习通用分布，再在小规模标注数据上进行任务特定的细化，这在某种意义上是另一种形式的正则化；在三维数据处理中，利用点云的几何结构与拓扑约束，则把结构先验直接嵌入特征提取过程。

4 典型网络结构家族：从 CNN 到 Transformer 与扩散模型

4.1 卷积神经网络：局部感受野与权重共享的威力

卷积神经网络（CNN）仍然是图像、视频及三维任务中的基础骨干。它的核心思想是用小尺寸滤波器在空间或时空上滑动，对局部区域进行加权求和，从而同时利用平移不变性和局部相关性。网络深度增加时，感受野逐渐扩大，抽象程度随之提升；残差连接（ResNet）与密集连接（DenseNet）则通过短路路径缓解梯度消失，使得数十层甚至上百层的网络成为可行。

在原文的高层视觉章节中，图像分类、语义分割、目标检测等几乎都以 CNN 为起点，然后在此基础上叠加注意力模块、特征金字塔结构、多尺度融合等设计。例如，分割网络中的 U-Net 结构通过 U 型编码器---解码器设计，将高层语义与低层细节通过跨层跳连融合，既保留了空间分辨率，又获得了语义抽象能力；目标检测网络则大量使用区域提议网络（RPN）、特征金字塔网络（FPN）等结构，在不同尺度上寻找候选目标区域。

4.2 循环网络与序列建模：从 RNN 到 LSTM、GRU

在自然语言处理和早期视频建模中，循环神经网络（RNN）、长短期记忆网络（LSTM）与门控循环单元（GRU）扮演了重要角色。它们通过沿时间维度的递归连接，把序列前后依赖编码到隐藏状态中。尽管随着 Transformer 的出现，纯 RNN 结构在主流 NLP 任务中逐渐退居二线，但它们提供的"序列递归建模范式"仍然影响着后来的许多设计，比如许多 3D-R2N2 之类的三维重建网络，实际上就用循环单元来融合多视图信息。

在理论上，RNN 强调的是"递归式的记忆更新"，而 Transformer 更强调"全局关系建模"；两者分别对应马尔可夫链和完全图上的信息传播。理解这一点，有助于我们在面对长序列任务时，在模型选择和结构改造上做出合理权衡。

4.3 生成对抗网络：对抗训练与分布匹配

生成对抗网络（GAN）将生成模型与判别模型置于零和博弈中，通过对抗训练逼近真实数据分布。判别器学习分辨真假样本，生成器则学习"欺骗"判别器；理论上，当对抗过程达到纳什均衡时，生成器输出的分布会接近真实分布。原文在图像生成、图像到图像转换、视频生成等章节中多次提到 GAN 的变体，强调其在高保真图像合成、风格迁移、视频内容生成中的作用。

在超分辨率、去噪、去模糊等低层任务中，单纯的 L2 损失往往会导致过于平滑的结果，因此许多方法会在重建损失之外，引入对抗损失和感知损失，让模型在保持整体结构的同时增强纹理细节。这一点在原文第 70 页附近的图像超分辨率对比图中表现得非常直观：图 8 将多个方法在不同放大倍数下的视觉效果并列展示，可以看到更先进的网络在窗框、瓦片等高频区域能恢复出更多清晰细节。

【图2：超分辨率视觉对比的图像，用于说明 GAN/Transformer 在细节重建上的优势】

4.4 Transformer 与注意力机制：从自注意到多模态对齐

Transformer 及其自注意力机制是原文重点讨论的另一类基础结构。自注意力通过计算序列内部元素之间的相关性，让每个位置的特征能直接汇聚来自其他位置的信息，不再受限于局部卷积或时间递归。在图像领域，Vision Transformer（ViT）将图像划分为 patch 序列，将二维空间问题转化为一维序列建模，从而把注意力机制引入视觉任务；在视频中，多头时空注意力能够同时关注时间和空间维度的依赖关系；在 NLP 中，则直接支撑了预训练语言模型和大模型的快速发展。

注意力机制本质上是一种"数据驱动的加权聚合"，它用学习到的相关性代替了手工定义的邻接关系，使网络能够动态调整感受野范围和信息通路。这一点在多模态任务中尤为重要：视觉---文本对齐、跨模态检索、图文生成等任务，往往依赖注意力来建立不同模态之间的软对齐关系。

4.5 扩散模型等新型生成框架：从噪声到样本

近年来，扩散模型等基于随机过程的生成方法逐渐崛起，它们通过在前向过程中向数据逐步添加噪声，再训练一个反向网络去逐步去噪，从而实现从纯噪声到高质量样本的生成。与 GAN 相比，扩散模型的训练往往更稳定，生成多样性更好，但是采样速度较慢，需要更多步骤。原文在总结生成任务时强调，这类方法实质上是"深度学习 + 概率图模型"的结合，将随机过程建模与深度网络的函数逼近能力结合起来，进一步拓展了深度学习的理论边界。

5 低层视觉任务：从噪声建模到端到端重建

5.1 图像去噪：从传统先验到深度网络先验

低层视觉任务的一个典型代表是图像去噪。传统方法大多依赖显式先验（平滑先验、稀疏先验、非局部自相似等），通过优化算法求解能量函数最小值。深度学习方法则把"先验"隐含在网络结构和训练数据中，直接学习从噪声图像到干净图像的映射。原文系统地梳理了从卷积网络（DnCNN 等）到更复杂的残差密集网络（例如 Residual Dense U-Net）在真实噪声数据集上的表现，并通过表格列出了在 DND、SIDD 等数据集上的 PSNR 与 SSIM 结果，但本文不再详细展开具体数值，而是强调其共性：

第一，网络结构往往包含大量残差和跳连，用来保留输入信息并简化学习任务；第二，损失函数不仅包括像素级误差，还会加入感知损失甚至对抗损失，以平衡噪声去除与细节保留之间的矛盾；第三，真实噪声的统计特性往往与简单高斯噪声不同，因此许多方法通过噪声建模、无监督学习（如 Noise2Noise）等方式来计算更符合实际情况的训练目标。

【图3：去噪效果可视化，用同一场景展示多种方法的输出对比】

5.2 图像超分辨率：多尺度特征与长程依赖

图像超分辨率任务要求从低分辨率输入恢复高分辨率细节。原文在这一部分汇总了卷积型、注意力型以及 Transformer 型 SR 网络的代表方法，并通过大量定量表格展示了在常见数据集（如 Set5、Set14、B100 等）上的 PSNR/SSIM 表现。

从理论角度看，SR 的难点在于：信息在采样过程中已经丢失，逆过程本质上是欠定的。深度网络要在被压缩的观测空间中恢复高频信息，就必须利用大规模先验知识。CNN 的多尺度特征金字塔、残差密集连接网络中的特征重用、基于图注意力或 Transformer 的长程依赖建模，都对应着不同层次的先验：局部纹理先验、多尺度结构先验、全局几何先验等。原文中从对比可视化结果可以清楚看到，越是能够有效整合多层次信息的网络，在边缘清晰度、纹理自然度上越占优势。

5.3 图像去模糊与其他恢复任务：退化模型与端到端网络的结合

图像去模糊、去压缩伪影、低照度增强等任务，与去噪和超分一致，都属于"观测退化 + 逆过程恢复"的范畴。区别在于：模糊核、压缩算子、照度模型往往比简单噪声更复杂，具有显著的空间变化和非线性特征。原文中提到的许多方法，都会在网络结构中显式或隐式地编码退化模型，例如通过可学习卷积核来模拟空间变化模糊，通过物理模型约束网络的中间特征，使之更符合成像过程。

从统一视角来看，这些任务都在做同一件事：在观测空间与潜在清晰空间之间学习一个参数化映射。其中，退化模型决定了映射的"物理合理性"，网络结构则承担了表达能力与计算效率之间的平衡。

6 高层视觉任务：从分类到全景理解的结构化建模

6.1 图像分类：从浅层特征到深层语义

图像分类是深度学习在计算机视觉中最早取得突破的任务之一。原文在这一部分回顾了自 AlexNet 以来一系列经典网络在 ImageNet 等数据集上的表现，但我们更关心的是"理论迁移"：为什么在分类任务上表现良好的网络，几乎都能成为其他任务的基础骨干？

一个直接的解释是：分类任务要求模型对图像的全局语义进行判断，这迫使网络在多层次上组织特征，从局部纹理到对象形状再到整体场景，形成逐层抽象的语义层次结构。这种层次结构恰好也是分割、检测、三维理解等任务所需要的，因此在迁移学习中，大家往往只是替换输出层、增加一些任务头，就能在其他任务上达到不错的表现，而不需要完全重训整个网络。

6.2 语义分割、实例分割与全景分割：像素级决策与多尺度融合

图像分割任务要求模型对每个像素进行分类。语义分割只关心类别，实例分割则要区分同类中的不同对象，全景分割进一步融合两者，将"东西"（stuff）与"物体"（thing）统一建模。原文详细梳理了 FCN、U-Net、DeepLab 系列、Mask R-CNN 以及一阶段分割网络等方法，说明它们如何通过编码器---解码器结构、多尺度空洞卷积、特征金字塔网络等提高分割精度。

在理论层面，分割任务的核心挑战在于"同时处理局部细节与全局一致性"：网络既要对边界像素给出精细判断，又要保证同一物体区域内部标签一致。编码器---解码器结构通过下采样获取全局语义，再通过上采样结合浅层特征恢复局部细节；注意力模块和条件随机场（CRF）等后处理方法，则试图在像素间显式建模上下文关系，使决策不再彼此独立。

6.3 目标检测与结构化输出：候选区域、锚框与端到端检测

目标检测任务不仅要识别图像中存在什么对象，还要给出其位置与大小。原文系统整理了两阶段检测（R-CNN 系列）、一阶段检测（YOLO、SSD 系列）以及 anchor-free 方法的演化脉络，并指出其中多个关键思想可以迁移到实例分割、全景分割甚至视频目标追踪中。

检测任务强化了"结构化输出"的概念：输出空间不再是简单的类别标签或像素标签，而是一个包含可变数量边界框和类别的集合。深度网络通过候选区域生成（RPN）、多尺度特征金字塔、角点/中心点回归等机制，把这个复杂输出空间分解成若干较易处理的子问题：先找可能存在目标的区域，再对每个候选进行分类和回归。随着端到端训练方法（如 DETR 系列）的发展，注意力机制和集合匹配损失使得检测任务可以不再依赖显式候选框和手工锚点，而是直接用全局注意力在特征图上"指认"目标，这又一次体现了 Transformer 结构在结构化预测中的优势。

7 视频处理：时空建模与序列理解

7.1 视频分析与理解：时空特征的统一建模

视频任务天然包含时间维度，网络需要同时处理空间和时间上的依赖。原文在视频分析章节中，从 3D CNN、双流网络、时间分段网络（TSN）到后来的时空 Transformer，梳理了不同方法如何在"表达能力---计算成本---序列长度"之间做平衡。

3D CNN 通过在时间维度加入卷积核，把局部时空块看成一个整体，从而能够捕捉短时动态模式；双流网络则将 RGB 帧与光流或运动信息分开建模，再在高层进行融合；时序分段网络则通过稀疏采样长视频中的关键片段，降低计算成本的同时保留长程信息。更近的工作，如 UniFormer 与多实体视频 Transformer，则强调在局部邻域使用卷积式局部注意，在全局层面使用稀疏注意，以此兼顾局部细节和全局上下文。

7.2 视频生成与编辑：从时序一致性到跨人重定向

视频生成与编辑强调在时间维度上的连贯性，要求网络不仅能生成每一帧的逼真图像，也要保证相邻帧之间的运动平滑、结构一致。原文在视频生成章节回顾了 MoCoGAN、Video-to-Video、基于关键点与姿态的动作迁移等代表性工作，强调它们都是在 GAN 或条件生成框架内通过分解"内容"和"运动"来控制生成过程。

从理论角度看，视频生成可以看作是在高维时空轨迹空间上学习一个分布。分解式方法通过把静态外观和动态动作分开建模，降低了问题维度；时空注意力和循环结构则为不同时间点之间的信息传播提供了通路，使得网络能够利用过去与未来帧的信息来约束当前帧的生成。

7.3 视频增强与修复：多帧信息融合

视频去噪、超分、插帧等增强任务都需要综合利用多帧信息。与图像任务相比，视频任务在理论上多了一个重要约束：时间上的几何一致性。网络必须学会对齐相邻帧、处理运动模糊与遮挡，再把这些信息整合到重建过程中。原文在该部分通过表格总结了多种代表性方法的结构设计和优势，但我们可以提炼为一句话：所有视频增强方法都在努力回答"如何在时间维度上进行合理的信息聚合"，而各种光流估计、可变形卷积、时间注意力，都是不同的实现路径。

8 自然语言处理中的深度学习：表示、生成与跨模态

8.1 文本表示与预训练语言模型：从词向量到大模型

在 NLP 领域，深度学习最重要的贡献之一是改变了"特征工程"的模式。早期的词袋模型和手工特征被词向量（Word2Vec、GloVe）和上下文敏感的语言模型所取代；随后，Transformer 结构的引入使得 BERT、GPT 等预训练模型成为主流。原文在 NLP 章节中，将文本表示、序列建模、生成与对话、跨模态对齐等多个方向置于同一框架，强调预训练---微调范式如何在不同任务间迁移。

在理论视角下，大规模语言模型可以看作是通过自回归或掩码语言建模任务，学习文本分布的高维概率模型。损失函数通常就是负对数似然或交叉熵，而注意力机制则在结构上实现了任意位置之间的依赖建模。这种组合使得模型能够在缺乏显式标注的情况下，从海量原始文本中提炼出高度抽象的语言表示，再在问答、情感分析、翻译等下游任务上通过微调适配。

8.2 文本生成与对话建模：条件生成与知识注入

文本生成任务包括机器翻译、摘要、对话、代码生成等。原文指出，这些任务在本质上都是条件生成：给定输入文本或其他模态信息，模型需要在条件分布下生成输出序列。Transformer 解码器结构在这里发挥了核心作用：自注意力负责建模历史输出之间的依赖，交叉注意力则把输入序列的信息融入生成过程。对话建模还需要考虑多轮上下文和外部知识库的交互，因此常常在标准 Transformer 上叠加检索模块、知识图谱或记忆网络等组件。

在理论上，这些扩展可以被看作是对条件分布的结构化建模：输入条件不仅包括观察序列，还包括检索到的支持证据、用户画像等；网络通过额外的注意力头或门控机制，把这些条件整合进生成概率的计算中。

8.3 跨模态融合：视觉---语言对齐与联合建模

原文在 NLP 章节中还讨论了视觉---语言任务，如图文匹配、图文检索、视觉问答等。这类任务的核心在于如何在不同模态空间中找到语义对齐的子空间。联合训练的视觉---语言 Transformer 通过在图像 patch 和文本 token 之间建立注意力连接，让模型在统一的隐空间中编码跨模态关系。

从统一视角来看，跨模态对齐与前面提到的 3D---图像---文本融合本质相似，都是在寻找一种统一表征，使得不同模态下的观测可以被解释为同一潜在语义结构的不同投影。

9 三维数据处理：点云、体素与隐式表示

9.1 三维对象识别与分类：点云网络与局部几何建模

原文在 3D 数据处理章节中，将 3D 对象识别和场景理解视作深度学习在几何空间中的自然延伸：输入不再是规则网格上的像素，而是稀疏且无序的点云、体素或多视图图像。早期的 PointNet 通过对点云施加对称函数（如全局最大池化）来保证对输入点顺序的不变性，PointNet++ 等方法进一步引入分层局部区域聚合，以捕捉局部几何结构。

这些方法在理论上可以被视为"图上的卷积"：点与点之间通过邻域关系构成图结构，网络通过在图上定义的聚合运算获取局部与全局几何信息。与图像上的卷积不同，点云上的邻域是不规则的，必须动态构建，因此许多方法会结合 kNN 搜索或球邻域采样来定义局部结构。

9.2 场景理解与分割：从体素网格到 Transformer

在三维场景理解与语义分割中，网络不仅要识别对象，还要在三维空间中对每个点或体素进行分类。原文通过表格总结了 S3DIS、ScanNet 等数据集上的主流方法，如 KPConv、RandLA-Net、Point Transformer 等，展示了不同结构在大规模室内、室外场景上的性能差异。

从理论角度看，这些网络都在解决"如何在高维空间中同时处理局部几何细节与长程上下文"的问题：局部卷积或点邻域聚合负责捕捉表面细节和小结构，图注意力或 Transformer 模块则在大范围内传播语义信息，保证场景级的一致性。由于三维数据维度高、密度不均，计算成本成为一个重要约束，因此许多方法通过随机采样、层次聚类等手段来压缩数据，同时利用残差与跳连避免信息丢失。

9.3 三维重建与生成：从多视图几何到深度隐式表示

三维重建任务要求从多视图图像、深度图或点云中恢复三维几何结构。原文在这一部分回顾了从传统多视图几何（如八点法、Poisson 重建）到深度学习方法（如 3D-R2N2、基于体素/网格/隐式场的重建）的一系列发展。

深度重建方法的一个关键思想是：把三维表面隐含在一个高维函数中，比如体素占据概率、带符号距离场（SDF）或神经隐式场（NeRF 等），网络学习从坐标到属性的映射。与传统几何方法相比，这种表示更容易与图像、文本等其他模态融合，也更适合在神经网络中进行端到端优化。

10 方法与任务的统一视角：跨模态、跨任务的共性结构

为了帮助你从更高视角把握全文结构，这里给出一个综合表格，将典型网络家族与主要应用任务对应起来。注意，表格只是为了概览，真实研究往往远比列表更复杂多样。

表1 典型网络结构家族与核心特征对比

网络家族	主要结构特征	典型优势	常见应用任务
CNN	局部卷积、权重共享、多层堆叠	擅长处理规则网格数据、局部模式提取	图像分类、分割、检测、低层视觉
RNN/LSTM/GRU	序列递归、隐状态记忆	适合顺序数据、短程依赖建模	早期 NLP、语音、视频序列建模
GAN	生成器---判别器对抗博弈	生成样本清晰逼真、适合图像/视频生成	图像到图像翻译、SR、风格迁移
Transformer/ViT	自注意力、多头机制、位置编码	全局依赖建模、扩展性好	NLP、大模型、视觉、视频、多模态
扩散模型	噪声注入与反向去噪的随机过程	生成质量高、模式多样性好	高分辨率图像与视频生成

表2 典型任务类别与代表性方法（理论视角）

任务类别	输入形式	输出形式	典型深度学习方法/结构	理论视角下的本质问题
低层视觉	单/多帧图像	重建图像	残差 CNN、U-Net、GAN、Transformer	退化模型 + 先验约束下的逆问题求解
高层视觉	单帧图像	类别/像素标签/检测框	ResNet、FPN、Mask R-CNN、全景分割网络	全局语义理解与结构化输出建模
视频分析	帧序列	时序标签/动作/轨迹	3D CNN、双流网络、时空 Transformer	时空依赖建模、长序列压缩
NLP	文本/序列	文本/标签	预训练 Transformer、大模型	序列概率建模与条件生成
3D 数据处理	点云/体素/多视图	类别/分割/场景结构/重建	PointNet/Point Transformer/NeRF 等	高维几何结构建模与跨模态对齐

从这些表格中可以看出，尽管任务与数据形式各不相同，但其背后都可以归结为几个核心问题：如何定义合理的表示空间？如何在这个空间中建模局部与全局依赖？如何在表达能力和计算复杂度之间找到平衡？原文通过在不同章节反复出现的"骨干 + 任务头 + 训练策略"模式，展示了深度学习在不同领域中的统一性。

11 深度学习的核心挑战：从鲁棒性、标注成本到评估体系

虽然本文尽量避免展开未来应用，但原文在结尾部分提炼了一组关于当前深度学习在多任务场景下面临的共性挑战，这些挑战更多是"理论与方法层面尚未完全解决的问题"，而不是简单的应用展望，因此在这里做一个简要总结，有助于理解现有方法的局限性。

首先是跨场景鲁棒性问题。低层与高层视觉、视频、NLP 与三维任务之间存在明显的分布差异，当模型从受控实验环境走向复杂真实场景时，性能往往会显著下降。原文将这一问题归因于训练数据多样性有限、模型对环境条件变化缺乏显式建模等。

其次是计算成本与复杂度问题。深度网络，尤其是在视频和 3D 任务中的模型，往往需要处理高维输入，参数量与计算量急剧增加。这不仅影响训练与推理效率，也限制了模型在资源受限平台（如移动端、机器人等）上的部署。轻量化网络、模型剪枝、量化、知识蒸馏等技术都在尝试缓解这一问题，但尚未形成统一理论框架来指导不同场景下的设计取舍。

第三是标注成本与监督信号稀缺问题。视频和 3D 数据的人工标注成本极高，低资源语言的 NLP 标注也相对稀缺，这导致完全依赖监督学习的范式难以扩展到所有感兴趣的任务和场景。自监督学习、弱监督学习、半监督学习、多任务联合训练等方向，都是从不同角度在探索如何从有限标注中榨取更多信息。

第四是单模态特征的表达不足与多模态融合难度。原文指出，仅依靠单模态数据（例如纯图像或纯文本）往往无法完整表达真实世界的复杂性，导致模型在跨场景或跨任务迁移时表现受限。多模态融合技术虽然在视觉---语言、图像---三维等任务中取得了明显进展，但如何在理论上刻画不同模态之间的一致性与互补性，仍然是开放问题。

最后是评估指标与硬件条件的约束。不同任务中常用的定量指标（如 PSNR、mIoU、BLEU、CIDEr 等）并不总能准确反映模型在真实应用中的表现；另一方面，硬件的吞吐能力与延迟也对模型结构和训练策略施加了隐性约束。原文在总结中提醒读者，要警惕"只追求指标而忽略实际效果"的倾向，主张在设计模型时同时考虑算法、数据与硬件三个维度的协同优化。

12 小结：如何利用这篇综述搭建自己的深度学习知识体系

综上所述，《A survey on deep learning fundamentals》并不是一篇单纯"罗列方法、贴一堆表格"的综述，而是试图在深度学习的多个应用领域之间搭建一座"结构化桥梁"：从基础组件出发，贯通典型网络家族，再用低层视觉、高层视觉、视频、NLP 与三维数据作为五条主线，展示这些组件如何被不断重用与改造。

对读者而言，如果想把这篇工作转化为自己的知识体系，可以考虑如下路径（这里不再展开成清单式，而是给出一个宏观思路）：先从组件级入手，搞清楚卷积、注意力、归一化、损失函数、优化器等基础算子和机制；再选一到两个任务（例如图像分割和文本生成）深入理解其典型网络结构，找出它们在结构上与基本组件的对应关系；最后再回到三维、视频、多模态等更复杂任务中，观察这些任务如何在相同组件基础上引入额外结构或先验约束。

当你把这些内容连成一个完整的思维导图时，会发现一个重要结论：深度学习的"基础"并不是某一个具体模型，而是一整套关于表征学习、函数逼近、结构先验与优化机制的组合思想。掌握了这套思想，你不仅能理解原文中列举的丰富方法，也能更好地面对未来出现的新架构、新任务与新场景，而不会在每一次"架构更迭"中都从零开始。

参考文献：

Tian, C., Cheng, T., Peng, Z. et al. A survey on deep learning fundamentals. Artif Intell Rev 58, 381 (2025). https://doi.org/10.1007/s10462-025-11368-7