深度学习周报(12.8~12.14)

目录

摘要

Abstract

[1 最优传输](#1 最优传输)

[1.1 Monge 问题](#1.1 Monge 问题)

[1.2 Kantorovich 松弛](#1.2 Kantorovich 松弛)

[1.3 二者关系](#1.3 二者关系)

[1.3.1 形式包含](#1.3.1 形式包含)

[1.3.2 代价的一致性](#1.3.2 代价的一致性)

[1.3.3 不等式关系](#1.3.3 不等式关系)

[2 Vision Transformer](#2 Vision Transformer)

[2.1 背景](#2.1 背景)

[2.2 方法论](#2.2 方法论)

[2.3 创新点](#2.3 创新点)

[2.4 论文实验及结果分析](#2.4 论文实验及结果分析)

[3 总结](#3 总结)


摘要

本周首先深入学习了上周接触的 Monge 问题与 Kantorovich 松弛,了解它们的问题描述、数学表示、局限与优势以及意义;其次,阅读了 Vision Transformer 的论文,了解了 ViT 产生的背景、采用的方法以及创新点;此外,拓展了解了刚性、紧性等性质概念。

Abstract

This week, I first delved deeper into the Monge problem and Kantorovich relaxation introduced last week, gaining an understanding of their problem descriptions, mathematical formulations, limitations, advantages, and significance. Secondly, I read the Vision Transformer paper, learning about the background, methodology, and innovations of ViT. Additionally, I expanded my knowledge on conceptual properties such as rigidity and compactness.

1 最优传输

1.1 Monge 问题

Monge 问题是最优传输的起源,它是法国数学家加斯帕尔·蒙日(Gaspard Monge)于1781年在其著作《论挖方与填方》中提出的一个非常工程化、直观的问题,即:

设想有两堆沙子,一堆是初始分布(挖方区),一堆是目标分布(填方区),两堆沙子总量相同。现需要将第一堆沙子进行搬运并重新塑形,使其变成第二堆。每次移动一小撮沙子都需要做功(代价与移动距离和沙子重量成正比)。如何找到一个搬沙方案,使得总搬运工作量最小?

将该问题的直观描述转化为现代数学语言,可先设 :

  1. X 和 Y 两个波兰空间(完备可分离度量空间),分别表示源空间与目标空间,通常取为 (欧几里得空间);

  2. 两个概率测度,分别定义在 X 和 Y 上,表示初始质量分布与目标质量分布,它们具有相同的总质量,即:

  1. 代价函数 ,表示将单位质量从点 x 运输到点 y 的代价,其常见的形式包括欧氏距离、p次幂距离和一般凸代价等。

进而可对 Monge 问题各部分进行数学定义如下:

首先,定义传输映射为可测映射:,表示将点 x 的质量运输到点 y(T(x));

其次,映射必须满足质量守恒(保证传输后测度变为 ),即 将测度 前推为测度

对于任意可测函数 ,其积分形式下的等价定义可表示为:

于是,对于上面给定的传输映射 T,其总传输代价相当于将每个点 x 处的无穷小质量 移动到 的代价之和,即:

故 Monge问题的完整数学表述为:

这个表述十分自然,但从数学和计算而言却极其困难,原因主要在于两个方面。

首先,约束 涉及 T 的逆像,是高度非线性的,这导致问题的可行域非常复杂,既非凸也非紧,使得标准变分法难以直接应用;

p.s. 在凸优化中,凸性保证了局部极小即是全局极小,非凸性则意味着存在多个局部极小,优化算法可能陷入不好的局部解;紧性是指无限活动必有聚集点,且聚集点还在集合内,它是保证解存在的一个关键性质,非紧性则意味着序列可以扩散开,或者极限跑到集合外面。

其次,刚性与存在性问题,二者实际上是一个根本问题的两个方面,即确定性约束太强导致解可能不存在**。**刚性意味着每个源点x 的质量必须作为一个不可分割的整体传输到唯一的目标点 T(x);存在性问题即由于这种刚性,当源测度和目标测度的原子结构不兼容时,可能不存在满足条件的传输映射。

1.2 Kantorovich 松弛

直到1942年,苏联数学家列昂尼德·康托洛维奇(Leonid Kantorovich)才取得了根本性突破,他的核心思想是,放弃确定性映射 T,转而考虑概率性耦合,在整体满足质量守恒的前提下,允许从源点 x 出发的沙子被分拆,运送到多个不同的目标点 y。

他在 两个概率测度的基础上, 引入一个耦合(传输计划)测度 ,这个耦合测度满足两个边缘约束,即第一边缘为 ,第二边缘为

如果 分别有密度 f 和 g,则 有密度满足:

所有耦合的集合表示为 ,这个集合总是非空的,凸集(因为线性约束),且在适当拓扑下是紧集。

同样给定代价函数 ,其总传输代价为:

进而在所有满足边缘约束的联合分布中,寻找期望代价最小的那个,即

1.3 二者关系

1.3.1 形式包含

每一个 Monge 映射 都自然地诱导一个 Kantorovich 传输计划,即:

这个 集中 在确定性耦合上。

1.3.2 代价的一致性

对于这样的 ,有总传输代价为:

完全对应Monge问题的代价泛函。

1.3.3 不等式关系

由于 Kantorovich 的可行集更大,它包含所有 Monge 映射对应的耦合,因此:

Kantorovich 问题给出了 Monge 问题的一个下界。

Kantorovich 的思路在于通过暂时的"放松"(允许质量拆分),建立了一个更一般的理论框架,这个框架不仅包含且最终在合理条件下恢复了 Monge 的原始直觉,是数学中以退为进策略的典范。

2 Vision Transformer

论文链接:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

2.1 背景

本文指出,在自然语言处理(NLP)任务中,Transformer 架构虽已成为主流,但在计算机视觉领域,卷积神经网络(CNN)仍然占据主导地位。受 NLP 的启发,视觉领域的研究大部分是将注意力机制与 CNN 结合,或用注意力替换 CNN 的部分组件,总体仍依赖于 CNN 的整体结构。

2.2 方法论

ViT 的方法论总体基于一个核心思想,即将图像视为一系列图像块的序列,并直接使用自然语言处理中成熟的标准 Transformer 编码器进行处理,无需引入卷积归纳偏置。其方法主要包括以下几个关键步骤:

首先,图像的分块与线性嵌入。图像被均匀分割为固定大小的正方形块(例如 16×16 像素)。假设输入图像大小为 ,每个块大小为 ,则块的数量为:

每个图像块被展平为一个长度为 的向量,再通过一个可训练的线性投影层映射到 Transformer 的隐藏维度 D,得到块嵌入向量(patch embedding)。

这一步骤将图像转换为一个长度为 N 的视觉词序列,类似于 NLP 中的单词嵌入。

其次,添加特殊标记与位置嵌入。在块嵌入序列的开头插入一个可学习的嵌入向量 ​,它经过 Transformer 编码后的输出状态将作为整个图像的表示,用于后续分类任务。另外,为了保留图像块之间的空间位置信息,向每个块嵌入添加一维可学习的位置嵌入向量。

p.s. 实验发现,使用更复杂的二维感知位置嵌入并未带来显著提升,因此采用了简单的一维位置嵌入。

然后,输入序列经过一个标准的 Transformer 编码器,该编码器由 L 个相同的层堆叠而成,每层包含两个核心模块,即多头自注意力(MSA)与多层感知机(MLP)。前者通过多个注意力头并行计算全局依赖关系,每个头关注输入序列的不同部分,最终拼接并投影回原维度;后者则使每个注意力输出经过一个具有两层 GELU 激活函数的 MLP 进行非线性变换。同时每个块前应用层归一化(LayerNorm),块后添加残差连接,公式表达为:

最后,编码器的输出取第一个位置(前文添加的特殊标记)作为图像表示,后接一个分类头以产生最终的类别预测。在预训练时,分类头使用的是带一个隐藏层的 MLP;在微调时则通常替换为采用零初始化的单个线性层,输出类别概率。

另外,允许使用 CNN 提取的特征图作为输入序列,此时图像块从特征图中提取而非原始像素,若块大小为 ,实际上相当于将特征图展平后投影到 Transformer 维度。还有微调时,可使用比预训练时更高的图像分辨率,此时保持块大小不变,序列长度将会增加。预训练的位置嵌入通过二维插值进行调整,以适应新的图像尺寸,这是 ViT 中唯一手动注入图像二维结构先验的环节。

p.s. 结构先验是指模型架构中预先人为设计、用于反映问题领域内在结构或规律的假设与约束。CNN 的设计强制编码了关于图像的强假设(如局部性、平移等变性等),ViT则仅保留了图像分块与位置信息两个基础且必要的结构先验注入点。

2.3 创新点

本文的创新点在于:

第一,首次将纯 Transformer 架构直接应用于图像分类,无需依赖CNN的归纳偏置,仅通过图像分块和位置嵌入引入极少的视觉结构先验。

第二,证明了大规模预训练可使 Transformer 在视觉任务中超越 CNN。当预训练数据量足够大时,ViT在 ImageNet、CIFAR、VTAB 等多个基准上能够达到,甚至超过最先进 CNN 的性能。

第三,提出了高效的视觉序列建模方式,即将图像视为块序列,使 Transformer 能够以较低的计算成本处理高分辨率图像,并具有良好的扩展性。

第四,系统分析了数据规模与模型性能的关系,指出 ViT 在小数据集上容易过拟合,但在大数据预训练下表现优越,凸显了大数据训练优于归纳偏置的结论。

2.4 论文实验及结果分析

本文的实验设计采用 "大规模预训练 + 下游任务微调/线性评估" 的范式,在三个不同规模的数据集上进行预训练,再迁移到多个具有代表性的图像分类基准上进行评估。

实验设置包括:预训练数据集采用 ImageNet-1K(小)、ImageNet-21K(中)与 JFT-300M(超大);下游评估基准包括常用的分类数据集 ImageNet(及清理标签的Real版)、CIFAR-10/100、Oxford-IIIT Pets 与 Oxford Flowers-102 以及分为自然图像、专业领域和结构化任务三组,用于评估低数据迁移能力的 VTAB-1k;基于 Bert 定义了三种 ViT 模型结构(Base、Large、Huge)。

实验从以下几个方面展开:

首先是与视觉领域其他先进方法的比较。在 ImageNet、CIFAR、Pets、Flowers 和 VTAB 等数据集上,在 JFT-300M 上预训练的 ViT-H/14 接近或优于 Big Transfer(BiT)和 Noisy Student 等 CNN 模型,且预训练计算成本显著更低。

其次,通过在不同规模数据集(ImageNet、ImageNet-21k、JFT-300M)上预训练,发现ViT在大数据集上才能充分发挥其性能优势,小数据下不如ResNet,发现大规模预训练可以弥补ViT因缺乏图像归纳偏置而导致的劣势。

然后,模型缩放研究。在计算资源相同时,ViT 性能优于 ResNet,随着模型规模增大,性能持续提升且未出现饱和;混合模型在小计算预算下略优于ViT,但随着模型规模的增大,这一优势逐渐消失,这表明卷积的局部特征处理在数据或者计算受限时有帮助,但并非大规模模型的必需品。

接着,通过可视化位置嵌入相似性、注意力距离和注意力图,发现 ViT 能够学习到图像的二维拓扑结构,并在深层中实现全局信息整合。

最后,采用类似 BERT 的掩码块预测任务进行自监督预训练,ViT-B/16 在 ImageNet 上达到79.9%的准确率,与随机初始化训练相较提升了2%,但与大规模有监督预训练仍相差4%。

综上,本文提出了一种直接处理图像块序列,无需引入 CNN 特有归纳偏置的纯 Transformer 模型------Vision Transformer(ViT),这种设计具备了优秀的扩展性和跨模态一致性,为后续视觉 Transformer 研究奠定了范式基础。

3 总结

本周首先对 Monge 问题与 Kantorovich 松弛进行了进一步学习,除了接触得比较少的数学概念(如紧性)以外,比较重要的是学习到了新的思路,即在面对较难处理的问题时,可以适当放宽条件再进行推理;其次阅读了视觉 Transformer 的论文,感觉重点在于对于图像的直接处理,可以进一部学习。

相关推荐
【建模先锋】2 小时前
多源信息融合!基于特征信号VMD分解+CNN-Transformer的故障诊断模型!
人工智能·深度学习·cnn·transformer·故障诊断·多源信息融合
中國龍在廣州2 小时前
AI顶会ICML允许AI参与审稿
人工智能·深度学习·算法·机器学习·chatgpt
koo3642 小时前
12.14周报
人工智能·算法
数据的世界012 小时前
重构智慧书-第13条:先知他人别有所图的心思,再伺机行事
人工智能
数据的世界012 小时前
重构智慧书-第10条:名声与好运
人工智能
岁月宁静2 小时前
FastAPI 入门指南
人工智能·后端·python
乾元2 小时前
AI 如何从配置历史与变更日志中推理出“变更引发的故障”——自动化根因分析的因果推理引擎
网络·人工智能·运维开发
明明如月学长2 小时前
Token到底是个啥?看完这篇终于懂了(附计算工具)
人工智能
自动驾驶小学生2 小时前
Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)
人工智能·深度学习·llm·transformer