从少量样本中学习:小样本学习方法总结
引用 :Parnami A, Lee M. Learning from few examples: A summary of approaches to few-shot learning[J]. arXiv preprint arXiv:2203.04291, 2022.
论文链接 : https://arxiv.org/pdf/2203.04291
Abstract 摘要
小样本学习是指从少量训练样本中学习数据中潜在模式的问题。许多深度学习解决方案需要大量的数据样本,因此常常面临数据匮乏的问题,同时也需要大量的计算时间和资源。此外,数据通常由于问题的性质或隐私问题,以及数据准备成本而不可获得。数据收集、预处理和标注是繁重的人工任务。因此,小样本学习作为一种低成本的解决方案,能够大幅减少构建机器学习应用的周转时间。本综述文章列举了最近提出的具有代表性的少样本学习算法。基于学习动态和特性,少样本学习问题的方法从元学习、迁移学习以及混合方法(即少样本学习问题的不同变体)的角度进行了讨论。
1 Introduction
人工智能(AI)领域自20世纪50年代以来经历了起伏不定。然而,过去几年AI领域取得了显著进展。大部分的进步可以归因于近年来"深度学习"的发展,其特点是学习具有多层表示的大型神经网络模型。这些模型在图像分类^1^、机器翻译^2^和语音建模^3^等任务中,在大量标注数据的情况下表现出色。然而,这些成就依赖于这样一个事实:对这些深度、高容量模型的优化需要在大量标注样本上进行多次迭代更新。这种优化方式在希望从少量标注样本中学习的情况下难以发挥作用。相比之下,人类可以通过少量的样本迅速学习解决新问题。例如,给出几张陌生人的照片,人类可以轻松地从大量照片中识别出同一个人。这不仅归因于人类大脑的计算能力,还因为其能够从先前学习的信息中综合和学习新信息。例如,如果一个人会骑自行车,那么这项技能在学习骑摩托车时也会有所帮助。
近年来,研究者们致力于弥合人类学习与机器学习之间的差距,催生了机器学习的一个新子领域------小样本学习(FSL),即机器学习模型从少量训练样本中泛化的能力。当仅有一个样本可供学习时,小样本学习也被称为单样本学习。小样本学习的动机在于:能够在这一任务上表现优异的模型将具有广泛的应用。首先,我们不再需要收集数千个标注样本就能在新任务上取得合理的表现,这将有助于减少数据收集的工作量,并降低模型训练的计算成本和时间。此外,在许多领域,由于隐私和安全等原因,数据很难或无法获取。能够从少量样本中泛化的模型将能够有效地处理这类数据。因此,在本综述中,我们研究了近年来为解决小样本学习问题而提出的各种方法。我们按照图1所示对小样本学习方法进行了分类。
图 1:FSL 的方法分为基于元学习的 FSL 和非基于元学习的 FSL。三种主要的元学习方法是:基于度量的元学习、基于优化的元学习和基于模型的元学习。此外,使用元学习的 FSL 问题的变体被归类为混合方法。
本综述的大部分工作受到了前人试图总结小样本学习领域的工作的启发。Wang等人^4^将小样本学习的核心问题定义为一个不可靠的经验风险最小化器,使其成为一个难题。Chen等人^5^对几种具有代表性的小样本分类算法进行了比较分析。与我们的研究类似,Weng^6^讨论了小样本学习的元学习方法。此外,我们还讨论了非元学习和混合元学习的方法,并扩展了对主要元学习方法的讨论,涵盖了最近的最新方法。
本综述的其余部分组织如下。第2节介绍了元学习,这是理解最新小样本学习方法的前提条件。第3节定义了小样本分类问题,介绍了可用的数据集,并将小样本学习的方法分为两个子部分:基于元学习的小样本学习(第3.2节)和非基于元学习的小样本学习(第3.3节)。接下来,在第4节中,我们列出了各种小样本学习方法的性能以及迄今为止取得的进展。最后,第5节讨论了所涉及的挑战并进行总结。
2 Introduction
在本节中,我们讨论理解最新小样本学习算法所需的必要背景知识。
2.1 Meta-Learning
元学习^7^^8^或学习如何学习^9^是大多数小样本学习算法所采用的基本技术。受人类发展理论的启发,元学习是机器学习的一个子领域,专注于从先前的经验中学习先验知识,以便在下游任务的学习中更加高效。例如,一个简单的学习者学习一个单一的分类任务,而一个元学习者通过暴露于多个相似的分类任务中,获得了学习如何解决分类任务的理解。因此,当面对一个类似但全新的任务时,元学习者能够比没有先前经验的简单学习者更快、更好地解决这个任务。元学习过程通常涉及两个层次的学习:任务内学习和跨任务学习。首先,快速学习在单个任务内发生,例如在一个特定的数据集内学习准确分类。接着,这种学习受跨任务逐渐积累的知识引导,这些知识捕捉了任务结构在不同目标领域中的变化方式。
元学习可以与其他类似方法区分开来,如迁移学习、多任务学习或集成学习。在迁移学习^10^中,模型首先在源域的单一任务(称为源任务)上进行训练,在该领域中有足够的训练数据可用。然后将该训练模型重新训练或微调用于目标域中的另一个单一任务(称为目标任务)。知识的迁移是从源任务到目标任务。因此,两个域越相似,模型的性能就越好。多任务学习^11^则是同时学习多个任务,起初没有任何先验经验,尝试通过同时解决多个任务来优化学习。另一方面,集成学习^12^是通过生成并组合多个模型(例如分类器或专家)来解决特定任务的过程。相比之下,元学习者首先通过多个相似任务积累经验,然后利用这些经验解决新任务。尽管如此,这些技术可以与元学习系统有意义地结合,并且通常是结合使用的。我们将提供元学习问题的正式定义,并通过一个例子进行解释。
2.1.1 Problem Definition
在典型的监督学习设置中,我们对一个任务 T T T 感兴趣,该任务包含数据集 D = { ( x k , y k ) } k = 1 n D = \{(x_k, y_k)\}{k=1}^{n} D={(xk,yk)}k=1n,其中有 n n n 个数据样本。我们通常将数据集 D D D 分为训练集 D train D{\text{train}} Dtrain 和测试集 D test D_{\text{test}} Dtest,即:
D train = { ( x k , y k ) } k = 1 t D_{\text{train}} = \{(x_k, y_k)\}_{k=1}^{t} Dtrain={(xk,yk)}k=1t
和
D test = { ( x k , y k ) } k = t + 1 n , D_{\text{test}} = \{(x_k, y_k)\}_{k=t+1}^{n}, Dtest={(xk,yk)}k=t+1n,
其中 t t t 表示训练样本的数量。我们在训练集 D train D_{\text{train}} Dtrain 上优化参数 θ \theta θ,并在测试集 D test D_{\text{test}} Dtest 上评估其泛化性能。因此,这里的学习问题是通过参数 θ \theta θ 来逼近函数 f f f,如下所示:
y ≈ f ( x ; θ ) , ( x , y ) ∈ D test y \approx f(x; \theta), \quad (x, y) \in D_{\text{test}} y≈f(x;θ),(x,y)∈Dtest
并且
θ = arg min θ ∑ ( x , y ) ∈ D train L ( f ( x ; θ ) , y ) , \theta = \arg \min_{\theta} \sum_{(x, y) \in D_{\text{train}}} L(f(x; \theta), y), θ=argθmin(x,y)∈Dtrain∑L(f(x;θ),y),
其中 L L L 是任何测量预测 f ( x ; θ ) f(x; \theta) f(x;θ) 与真实标签 y y y 之间误差的损失函数。
在元学习中,我们有一个任务分布 p ( T ) p(T) p(T)。一个元学习者从一组训练任务 T i train ∼ p ( T ) T_i^{\text{train}} \sim p(T) Titrain∼p(T) 中学习,并在一组测试任务 T i test ∼ p ( T ) T_i^{\text{test}} \sim p(T) Titest∼p(T) 上进行评估。每个任务都有其自己的数据集 D i D_i Di,其中 D i = { D i train , D i test } D_i = \{D_i^{\text{train}}, D_i^{\text{test}}\} Di={Ditrain,Ditest}。
我们将训练任务集合表示为 T meta-train = { T 1 , T 2 , ... , T n } T_{\text{meta-train}} = \{T_1, T_2, \dots, T_n\} Tmeta-train={T1,T2,...,Tn},测试任务集合表示为 T meta-test = { T n + 1 , T n + 2 , ... , T n + k } T_{\text{meta-test}} = \{T_{n+1}, T_{n+2}, \dots, T_{n+k}\} Tmeta-test={Tn+1,Tn+2,...,Tn+k}。相应地,元学习者的训练数据集将为 D meta-train = { D 1 , D 2 , ... , D n } D_{\text{meta-train}} = \{D_1, D_2, \dots, D_n\} Dmeta-train={D1,D2,...,Dn},测试数据集为 D meta-test = { D n + 1 , D n + 2 , ... , D n + k } D_{\text{meta-test}} = \{D_{n+1}, D_{n+2}, \dots, D_{n+k}\} Dmeta-test={Dn+1,Dn+2,...,Dn+k}。
元学习者的参数 θ \theta θ 在 D meta-train D_{\text{meta-train}} Dmeta-train 上进行优化,其泛化性能在 D meta-test D_{\text{meta-test}} Dmeta-test 上进行测试。那么,元学习问题就是通过参数 θ \theta θ 来逼近函数 f f f,如下所示:
y ≈ f ( D i train , x ; θ ) , where ( x , y ) ∈ D i test y \approx f(D_i^{\text{train}}, x; \theta), \quad \text{where} \quad (x, y) \in D_i^{\text{test}} y≈f(Ditrain,x;θ),where(x,y)∈Ditest
并且
D i = { D i train , D i test } , where D i ∈ D meta-test , D_i = \{D_i^{\text{train}}, D_i^{\text{test}}\}, \quad \text{where} \quad D_i \in D_{\text{meta-test}}, Di={Ditrain,Ditest},whereDi∈Dmeta-test,
即 D i D_i Di 是从 T meta-test T_{\text{meta-test}} Tmeta-test 中抽取的测试任务 T i T_i Ti 的数据集。接下来,最优的模型参数由以下公式获得:
θ = arg min θ ∑ D i ∈ D meta-train ∑ ( x , y ) ∈ D i test L ( f ( D i train , x ; θ ) , y ) . \theta = \arg \min_{\theta} \sum_{D_i \in D_{\text{meta-train}}} \sum_{(x, y) \in D_i^{\text{test}}} L(f(D_i^{\text{train}}, x; \theta), y). θ=argθminDi∈Dmeta-train∑(x,y)∈Ditest∑L(f(Ditrain,x;θ),y).
也就是说,元学习者学习参数 θ \theta θ,使得在给定任务 T i ∼ p ( T ) T_i \sim p(T) Ti∼p(T) 的情况下,利用其训练数据 D i train D_i^{\text{train}} Ditrain 进行训练后,在其测试数据 D i test D_i^{\text{test}} Ditest 上的性能达到最优。图2展示了一个元学习问题的示例设置。
2.1.2 Nomenclature
在元学习和小样本学习的文献中,某些符号和术语经常可以互换使用。表1列出了这些术语及其等价的用法。符号A在基于优化的元学习文献中更为常用(第3.2.1.2节),而符号B则常用于讨论基于度量的元学习方法(第3.2.1.1节)。此外,表2列出了本综述中常用的符号。
3 Few-Shot Learning
小样本学习的最新进展大多来自于元学习。因此,我们首先将小样本学习的方法分为两类:基于元学习的小样本学习和非基于元学习的小样本学习。此外,我们即将讨论的大多数方法都是从解决小样本图像分类问题的角度开发的。然而,这些方法同样适用于解决其他问题,例如回归、目标检测、分割、在线推荐、强化学习等。本节我们讨论小样本图像分类问题的方法,并在第4节中讨论其在其他领域的应用。
3.1 The Few-Shot Classification Problem
考虑任务 T T T(定义见第2.1.1节)为一个分类任务,其中 x x x 是输入, y y y 是输出标签。目标是用参数 θ \theta θ 逼近函数 f f f(见公式3)。这在我们有足够的训练数据 D train D_{\text{train}} Dtrain 时(见公式1),通常是可行的,即 t t t 是一个大数。然而,当 t t t 很小时,逼近函数 f f f 变得困难,从而使其在 D test D_{\text{test}} Dtest(见公式2)上的泛化性能较差。这被称为小样本分类问题,因为样本数量(即 shots)过少,无法学习出一个好的模型。
通常,人们将小样本分类任务定义为一个标准的 M M M 类 K K K 样本任务(M-way-K-shot 任务)^13^^14^,其中 M M M 是类别数, K K K 是 D train D_{\text{train}} Dtrain 中每个类别的样本数。通常 K K K 是一个较小的数(例如,1,5,10),并且 ∣ D train ∣ = M × K |D_{\text{train}}| = M \times K ∣Dtrain∣=M×K。模型的性能通过损失函数 L ( y ^ , y ) L(\hat{y}, y) L(y^,y) 来衡量,该损失函数定义在预测值 y ^ = f ( x , θ ) \hat{y} = f(x, \theta) y^=f(x,θ) 和真实标签 y y y 之间。
M M M 类 K K K 样本任务通常从类别数远大于 M M M 的较大数据集中采样。表3列出了常用于小样本分类实验的常见数据集。
3.2 Meta-Learning-based Few-Shot Learning
元学习的目标是用参数 θ \theta θ 逼近函数 f f f,使得从任务分布 p ( T ) p(T) p(T) 中随机抽取的任何任务 T i T_i Ti 上的性能最优(见公式5)。我们在小样本学习(FSL)中使用这种策略,使得分布 p ( T ) p(T) p(T) 现在变为小样本任务的分布,并且每个任务 T i T_i Ti 都是一个小样本任务。例如,考虑一个 M M M 类 K K K 样本的小样本分类(FSC)任务。在训练过程中,我们通过对 M M M 类 K K K 样本的 FSC 任务分布进行元学习,得到一个先验参数 θ \theta θ,以便在测试时能够解决新的 M M M 类 K K K 样本的 FSC 任务。
基于元学习的小样本学习可以分为三类方法^15^:基于度量的方法、基于优化的方法和基于模型的方法。此外,为了处理小样本学习中的问题,如跨领域小样本学习、广义小样本学习等,提出了各种基于元学习的混合方法。我们将在第3.2.1节中讨论这三种主要方法,并在第3.2.2节中讨论混合方法。
3.2.1 Main Approaches
考虑一个任务 T T T,其包含支持集 S S S 和查询集 Q Q Q。令 f f f 为一个带有参数 θ \theta θ 的小样本分类模型。那么对于 ( x , y ) ∈ Q (x, y) \in Q (x,y)∈Q,元学习方法在小样本学习中的不同之处体现在它们如何建模输出概率 P θ ( y ∣ x ) P_{\theta}(y|x) Pθ(y∣x) ^15^(见表4)。
3.2.1.1 Metric-based Meta-Learning
度量学习 ^16^ 是学习数据样本之间的距离函数的任务。考虑两个图像-标签对 ( x 1 , y 1 ) (x_1, y_1) (x1,y1) 和 ( x 2 , y 2 ) (x_2, y_2) (x2,y2) 以及一个距离函数 d d d,用于测量两个图像之间的距离。如果我们要为一个查询图像 x 3 x_3 x3 分配一个标签,我们可以计算两个距离 d ( x 1 , x 3 ) d(x_1, x_3) d(x1,x3) 和 d ( x 2 , x 3 ) d(x_2, x_3) d(x2,x3),然后将距离较短的图像对应的标签分配给 x 3 x_3 x3。这也是最近邻算法(k-NN)的核心思想。然而,对于高维输入如图像,我们通常使用一个嵌入函数 g g g 将输入转换为较低维度,然后再计算距离: g : R n → R m g : \mathbb{R}^n \to \mathbb{R}^m g:Rn→Rm,其中 n > m n > m n>m。
因此,基于度量的小样本学习的核心思想是利用元学习架构来学习嵌入函数 g ( ; θ 1 ) g(; \theta_1) g(;θ1)(由带参数 θ 1 \theta_1 θ1 的神经网络参数化)给定一个距离函数 d d d(例如欧几里得距离),或者同时学习嵌入函数 g ( ; θ 1 ) g(; \theta_1) g(;θ1) 和距离函数 d ( ; θ 2 ) d(; \theta_2) d(;θ2)(通常由另一个带有参数 θ 2 \theta_2 θ2 的神经网络参数化)。图3展示了这一思想。
训练的过程是从训练集中随机抽取 M M M 类 K K K 样本的训练集片段。每个片段都有一个支持集和一个查询集。在多个训练片段的查询集上计算的平均误差用于更新嵌入函数和距离函数(如果有的话)的参数。最后,从测试集中抽取新的 M M M 类 K K K 样本片段来评估网络的性能。这个训练片段的过程在算法1中解释。
表5基于特征(如嵌入函数、距离度量、预测方法、损失函数以及嵌入函数是否对所有任务固定,即任务无关(T.I.)或自适应(任务相关))对最近的基于度量的元学习方法进行了比较。接下来的段落中,我们将详细讨论这些方法。
卷积式孪生网络
孪生神经网络(Siamese Neural Networks)^17^ 是一对具有共享权重的相同神经网络,最初被提出用于签名验证。这两个网络在其输出处连接,连接处的神经元测量每个网络的特征向量输出之间的距离。2015年,Koch 等人^18^ 使用了一对相同的卷积神经网络(CNNs)^19^,与孪生网络中类似,具有共享权重,用于图像验证。该网络被训练以识别两张图像是否属于同一类别。网络输出一个概率分数(相似性),表示这两张图像属于同一类别的可能性。这一思想进一步扩展,用于通过比较查询图像和来自不同类别的支持图像之间的相似性分数,来执行单样本识别。图4展示了这一过程。在这里,嵌入函数 g θ 1 g_{\theta_1} gθ1 是一个卷积神经网络(CNN),而两个嵌入向量之间的距离简单地为 L 1 L1 L1 距离,即 ∣ g θ 1 ( x 1 ) − g θ 1 ( x 2 ) ∣ |g_{\theta_1}(x_1) - g_{\theta_1}(x_2)| ∣gθ1(x1)−gθ1(x2)∣。这个距离通过线性前馈层和一个 Sigmoid 函数转换为相似性的概率。然后网络在二元交叉熵损失上进行训练。
与卷积式孪生网络类似,Mehrotra 等人^20^ 提出了跳跃残差成对网络(Skip Residual Pairwise Networks,SRPNs),他们使用宽残差网络(Wide Residual Network,WRN)^21^ 作为嵌入函数 g θ 1 g_{\theta_1} gθ1,并使用一个由残差块构成的网络来作为距离函数 d θ 2 d_{\theta_2} dθ2。
匹配网络
给定一个支持集 S = { x i , y i } k = 1 K S = \{x_i, y_i\}{k=1}^K S={xi,yi}k=1K 和一个查询 x ^ \hat{x} x^,匹配网络(Matching Networks)^13^(见图5)通过一个注意力核 a ( x ^ , x k ) a(\hat{x}, x_k) a(x^,xk) 定义输出标签 y y y 的概率分布。注意力核基本上计算支持样本和查询样本的嵌入之间的余弦相似度,然后通过 softmax 对相似度分数进行归一化:
a ( x ^ , x k ) = e cos ( f ( x ^ ) , g ( x k ) ) / t ∑ k = 1 K e cos ( f ( x ^ ) , g ( x k ) ) / t . a(\hat{x}, x_k) = \frac{e^{\cos(f(\hat{x}), g(x_k)) / t}}{\sum{k=1}^K e^{\cos(f(\hat{x}), g(x_k)) / t}}. a(x^,xk)=∑k=1Kecos(f(x^),g(xk))/tecos(f(x^),g(xk))/t.
分类器的输出定义为支持样本的标签(独热编码)乘以注意力核 a ( x ^ , x k ) a(\hat{x}, x_k) a(x^,xk) 的加权和:
P ( y ∣ x ^ , S ) = ∑ k = 1 K a ( x ^ , x k ) y k . P(y|\hat{x}, S) = \sum_{k=1}^K a(\hat{x}, x_k) y_k. P(y∣x^,S)=k=1∑Ka(x^,xk)yk.
在简单情况下,查询的嵌入函数 f θ f_\theta fθ 和支持集中样本的嵌入函数 g θ 1 g_{\theta_1} gθ1 是相同的,即 f = g f = g f=g。或者,匹配网络提出使用全上下文嵌入(Full Context Embeddings),其中嵌入函数在上下文中嵌入图像。也就是说,对于给定的支持图像 x x x 和支持集 S S S, x x x 的嵌入由 g θ 1 ( x ; S ) g_{\theta_1}(x; S) gθ1(x;S) 计算。同样地,对于一个查询 x ^ \hat{x} x^,它的嵌入为 f θ ( x ^ ; S ) f_{\theta}(\hat{x}; S) fθ(x^;S)。也就是说,支持集 S S S 应该能够通过 f f f 修改我们嵌入 x ^ \hat{x} x^ 的方式。使用上下文嵌入在 miniImageNet 数据集上的小样本分类性能有所提高,但在较为简单的 Omniglot 数据集上没有观察到差异。
原型网络
原型网络(Prototypical Networks)^22^: 使用一个4层卷积神经网络(CNN)作为嵌入函数 g θ 1 g_{\theta_1} gθ1。每个类别的原型通过对属于该类别的支持图片生成的嵌入向量取平均值来定义(公式9):
v c = 1 ∣ S c ∣ ∑ ( x k , y k ) ∈ S c g θ 1 ( x k ) . v_c = \frac{1}{|S_c|} \sum_{(x_k, y_k) \in S_c} g_{\theta_1}(x_k). vc=∣Sc∣1(xk,yk)∈Sc∑gθ1(xk).
相似度通过计算查询样本的嵌入向量与每个类别原型之间的欧几里得距离平方来度量。类别上的输出概率通过对负距离取 softmax 得到(公式10):
P ( y = c ∣ x ^ ) = softmax ( − d ( g θ 1 ( x ^ ) , v c ) ) = e − d ( g θ 1 ( x ^ ) , v c ) ∑ c ^ ∈ C e − d ( g θ 1 ( x ^ ) , v c ^ ) . P(y = c \mid \hat{x}) = \text{softmax}(-d(g_{\theta_1}(\hat{x}), v_c)) = \frac{e^{-d(g_{\theta_1}(\hat{x}), v_c)}}{\sum_{\hat{c} \in C} e^{-d(g_{\theta_1}(\hat{x}), v_{\hat{c}})}}. P(y=c∣x^)=softmax(−d(gθ1(x^),vc))=∑c^∈Ce−d(gθ1(x^),vc^)e−d(gθ1(x^),vc).
损失函数 L L L 定义为正确类别的负对数似然(公式11):
L ( θ 1 ) = − log P θ 1 ( y = c ∣ x ^ ) . L(\theta_1) = -\log P_{\theta_1}(y = c \mid \hat{x}). L(θ1)=−logPθ1(y=c∣x^).
此外,为了生成更具判别力的嵌入,Zhang 等人^23^: 提出了使用带有边界的多类对比损失函数(multi-way contrastive loss function),以在嵌入空间中将属于同一类别的样本拉近,同时将其他类别的样本推远。
任务依赖自适应度量
在之前讨论的方法中,嵌入函数 g θ 1 g_{\theta_1} gθ1 是任务无关的,也就是说,对于任何任务 T ∼ p ( T ) T \sim p(T) T∼p(T),其样本都将使用固定的嵌入函数 g θ 1 g_{\theta_1} gθ1 进行嵌入。此外,距离度量函数的选择(例如余弦距离或欧几里得距离)也需要根据当前任务进行实验。Oreshkin 等人^24^: 提出了 1)使用可学习的 softmax 温度^25^: 和缩放因子 α \alpha α 来弥合余弦距离和欧几里得距离性能差距,2)将任务嵌入网络(Task Embedding Network, TEN)纳入嵌入网络 g θ 1 g_{\theta_1} gθ1 以输出任务自适应表示。这些贡献,再加上使用更深的嵌入网络(ResNet-12^1^:)作为特征提取器,使得在 miniImageNet^13^: 数据集上的 5-way 5-shot 分类任务中相对于原型网络(Prototypical Networks^22^:)的准确率绝对提高了 8.5%。
-
度量缩放(Metric Scaling):研究发现,使用欧几里得距离的原型网络(Prototypical Networks)^22^: 在少样本图像分类任务中的表现优于使用余弦距离的匹配网络(Matching Networks)^13^:。Oreshkin 等人^24^: 认为这种性能差异可以直接归因于不同度量缩放与 softmax 的相互作用。因此,他们建议通过一个可学习的温度参数 λ \lambda λ 对距离度量进行缩放,并观察到当使用学习到的参数 λ \lambda λ 进行缩放时,欧几里得距离和余弦距离产生了等效的性能(公式12):
P λ ( y = c ∣ x ) = softmax ( − λ d ( g θ 1 ( x ) , v c ) ) . P_{\lambda}(y = c \mid x) = \text{softmax}(-\lambda d(g_{\theta_1}(x), v_c)). Pλ(y=c∣x)=softmax(−λd(gθ1(x),vc)).
-
任务条件(Task Conditioning):之前,匹配网络(Matching Networks)使用上下文嵌入,即输入图像 x x x 的嵌入是在其支持集 S S S 的上下文中获得的,表示为 g θ 1 ( x ; S ) g_{\theta_1}(x; S) gθ1(x;S)。这是通过双向 LSTM 作为固定特征提取器的后处理实现的。而 TADAM 不同的是,TADAM 明确定义了一个动态特征提取器 g θ 1 ( x , Γ ) g_{\theta_1}(x, \Gamma) gθ1(x,Γ),其中 Γ \Gamma Γ 是从任务表示中预测的一组参数,使得在给定任务样本集 S S S 时,特征提取器 g θ 1 ( x , Γ ) g_{\theta_1}(x, \Gamma) gθ1(x,Γ) 的性能得以优化。
任务自适应投影
除了嵌入函数 g θ 1 g_{\theta_1} gθ1 和距离函数 d d d 之外,TapNet^26^: 提出了每个类别的参考向量 Φ \Phi Φ 以及任务相关的投影空间或映射 M M M 的概念。与原型网络(Prototypical Networks)中的类别原型不同,每个类别的参考向量 Φ \Phi Φ 是通过学习得到的。投影空间 M M M 是非参数化的,并且是针对每个任务专门构建的。输入查询 x x x 通过在投影空间 M M M 中计算其与不同参考向量 Φ \Phi Φ 的距离来进行分类(公式13):
P ( y = c ∣ x ) = softmax ( − d ( M ( g θ 1 ( x ) ) , M ( Φ c ) ) ) . P(y = c \mid x) = \text{softmax}(-d(M(g_{\theta_1}(x)), M(\Phi_c))). P(y=c∣x)=softmax(−d(M(gθ1(x)),M(Φc))).
其动机是找到一个投影空间 M M M,能够消除任务嵌入特征与参考向量之间的错位,从而提高分类性能。
任务相关特征
与匹配网络类似,Li 等人^27^: 提出了使用一个可插拔组件称为类别遍历模块(Category Traversal Module, CTM),由参数 ϕ \phi ϕ 表示,用于找到支持集 S S S 和查询集 Q Q Q 的上下文嵌入。参数 ϕ \phi ϕ 与嵌入函数 g g g 的参数 θ 1 \theta_1 θ1 一起在训练过程中进行学习。
CTM ( g θ 1 ( S ) ; ϕ ) → I ( S ) CTM ( g θ 1 ( Q ) ; ϕ ) → I ( Q ) \text{CTM}(g_{\theta_1}(S); \phi) \to I(S) \\ \text{CTM}(g_{\theta_1}(Q); \phi) \to I(Q) CTM(gθ1(S);ϕ)→I(S)CTM(gθ1(Q);ϕ)→I(Q)
CTM 以支持集特征 g θ 1 ( S ) g_{\theta_1}(S) gθ1(S) 作为输入,并通过一个使用类内和类间视角的集中器和投影器生成一个掩码 p p p。该掩码 p p p 被应用于支持集和查询集的降维特征,生成改进后的特征 I I I,这些特征的维度与当前任务相关。这些改进后的特征嵌入最终被输入到度量学习器中。这在图8中进行了说明。
3.2.1.1.1 基于注意力的方法
与匹配网络(Matching Networks)和类别遍历模块(CTM)类似,其他一些方法也提出了将注意力模块^28^: 集成到现有方法中,以学习更具判别力的特征嵌入。Hou 等人^29^: 提出了交叉注意力网络(Cross Attention Networks, CAN),其中包含一个交叉注意力模块(Cross Attention Module, CAM),用于将类原型 P P P 和查询 Q Q Q 转换为更具判别力的原型 P ˉ \bar{P} Pˉ 和查询 Q ˉ \bar{Q} Qˉ。此外,Hao 等人^30^: 提出了语义对齐度量学习(Semantic Alignment Metric Learning, SAML)方法,通过注意力图对支持集和查询图像中的语义相关局部区域进行对齐。
3.2.1.2 Optimization-based Meta-Learning
在第3.1节中,我们讨论了在少样本分类任务 T T T 中,使用训练数据 D train D_{\text{train}} Dtrain(公式1),当训练样本数 t t t 很少时,使用基于梯度的优化从零开始训练带参数 θ \theta θ 的模型 f f f(公式3和4)是困难的,因为它并没有设计成能够处理少量训练样本,因此容易导致过拟合。这引发了一个问题:"有没有办法在有限的训练数据上进行优化并仍然取得良好的泛化性能?" 基于优化的元学习(Meta-Learning)为少样本学习(FSL)提供了答案。基本上,利用元学习架构(图2)和任务式训练(算法1),基于优化的方法使得在有限的训练样本上进行优化成为可能。
学习器与元学习器
基于优化的方法通常涉及两个阶段的学习:
-
学习器(Learner): 学习器模型 f θ f_{\theta} fθ 是针对特定任务的,并为给定的任务进行训练。对于给定的少样本任务,单独使用梯度下降(公式4)从零开始训练的学习器模型无法很好地泛化(公式3)。
-
元学习器(Meta-Learner): 元学习器模型 g ϕ g_{\phi} gϕ 不是针对特定任务的,而是在任务分布 T ∼ p ( T ) T \sim p(T) T∼p(T) 上进行训练(图2)。通过任务式训练,元学习器学习(参数 ϕ \phi ϕ),以通过训练集 D train D_{\text{train}} Dtrain 更新学习器模型的参数 θ \theta θ:
θ ∗ = g ϕ ( θ , D train ) . \theta^{\ast} = g_{\phi}(\theta, D_{\text{train}}). θ∗=gϕ(θ,Dtrain).元学习器模型的目标是产生更新后的学习器模型参数 θ ∗ \theta^{\ast} θ∗,使其比单独的学习器模型参数 θ \theta θ 更优。
在元训练期间(表1中的符号A),优化过程涉及更新元学习器的参数 ϕ \phi ϕ 和个别训练任务的参数 θ \theta θ。一旦元训练完成,先验知识就被包含在 ϕ \phi ϕ 中,且只有 θ \theta θ 会为测试任务进行更新(公式14)。
表6比较了不同基于优化的元学习方法,基于它们如何更新学习器的参数 θ \theta θ 和元学习器的参数 ϕ \phi ϕ。在所有列出的方法中,学习都发生在两个阶段。最初,在外循环中,元学习器的参数 ϕ \phi ϕ 被随机初始化。接下来,在内循环中,学习器的参数( θ \theta θ)由元学习器更新/提出(公式14)。学习器的训练损失 L train L_{\text{train}} Ltrain 进一步用于获得最优参数 θ ∗ \theta^{\ast} θ∗。最后,在外循环中,使用 θ ∗ \theta^{\ast} θ∗ 获得的学习器的累积测试损失用于更新 ϕ \phi ϕ。在某些情况下,学习器的初始参数 θ \theta θ 也与 ϕ \phi ϕ 一起进行元学习。
在接下来的段落中,我们将更详细地讨论最近基于优化的元学习方法。
LSTM 元学习器
通常在给定任务 T T T 时,我们尝试在其训练数据 D train D_{\text{train}} Dtrain 上学习函数 f ( θ ) f(\theta) f(θ)。神经网络 f f f 的参数 θ \theta θ 使用某种形式的梯度下降进行更新,如下所示:
θ i + 1 = θ i − α ∇ f ( θ i ) . (15) \theta_{i+1} = \theta_i - \alpha \nabla f(\theta_i). \tag{15} θi+1=θi−α∇f(θi).(15)
与其使用手动设计的优化器(如 SGD)和固定的学习率 α \alpha α,Andrychowicz 等人^31^: 通过学习一个优化器函数 g ϕ g_{\phi} gϕ 来进行优化,使得:
θ i + 1 = θ i + g i ( ∇ f ( θ i ) ; ϕ ) . (16) \theta_{i+1} = \theta_i + g_i(\nabla f(\theta_i); \phi). \tag{16} θi+1=θi+gi(∇f(θi);ϕ).(16)
同样地,Ravi 和 Larochelle^32^: 使用 LSTM^33^: 模型作为元学习器 g ϕ g_{\phi} gϕ,以为学习器 f f f 提出参数更新方案:
θ i + 1 = g i ( ∇ f ( θ i ) , θ i ; ϕ ) . (17) \theta_{i+1} = g_i(\nabla f(\theta_i), \theta_i; \phi). \tag{17} θi+1=gi(∇f(θi),θi;ϕ).(17)
优化器 g g g 被训练为在少数步骤内为少样本学习任务 T T T 生成参数 θ \theta θ。该方法遵循任务式训练范式,并模拟测试场景。这个训练过程在算法2中描述,并在图9中进行了展示。
模型无关的元学习(Model-Agnostic Meta-Learning, MAML)
MAML^14^: 或模型无关元学习的核心思想是通过学习出好的初始化参数 θ \theta θ,使得新的任务可以通过使用少量数据的一个或多个梯度下降步骤从 θ \theta θ 快速优化得到(图10)。这些初始参数 θ \theta θ 是在任务分布 p ( T ) p(T) p(T) 上进行元学习的。与 LSTM 元学习器不同,LSTM 元学习器包含两个独立的模型,即元学习器模型 g ϕ g_{\phi} gϕ 和任务学习器模型 f θ f_{\theta} fθ,而 MAML 只有一个模型,参数为 θ \theta θ。各个任务使用模型参数 θ \theta θ 作为初始化,进而为当前任务得到优化的参数 θ ∗ \theta^{\ast} θ∗(算法3)。
Proto-MAML
Proto-MAML^34^: 结合了原型网络(Prototypical Networks)^22^: 和 MAML^14^: 的思想。训练期间,前者关注于学习一个好的嵌入函数 g θ g_{\theta} gθ,并且不执行任何任务自适应,而后者则关注于学习好的初始化参数 θ \theta θ,然后针对每个任务进行微调以适应任务。在 Proto-MAML 中,分类器的初始权重是从原型网络中获得的,然后对其进行微调以适应每个单独的任务。
任务无关的元学习(Task-Agnostic Meta-Learning, TAML)
TAML^35^: 提出元学习器的初始模型可能过于偏向现有任务,导致它难以适应新任务,尤其是在少样本学习的情况下,新的任务与训练任务存在较大差异。在这种情况下,我们希望避免初始模型在某些任务上表现过好。因此,TAML 旨在通过防止初始模型在某些任务上表现过于突出,或直接最小化不同任务之间的性能不平等性,来训练一个更具泛化能力的初始模型,使其更适应尚未见过的任务。
Antoniou 等人^36^: 指出,尽管 MAML 是一个简单而优雅的元学习框架,但它存在一些问题,这些问题可能导致:1)训练过程中的不稳定性,2)受限的泛化性能,3)框架灵活性的降低,4)系统计算开销的增加,以及 5)在新任务上工作之前需要昂贵的超参数调优。因此,他们提出了 MAML++^36^:,一个改进的元学习框架,它不仅保留了 MAML 的灵活性,还提供了稳定性、计算效率和更好的泛化性能。
层次结构化元学习(Hierarchically Structured Meta-Learning, HSML)
HSML^37^: 试图解决元学习中任务不确定性和异质性的问题,这些问题无法通过在所有任务之间全局共享知识或学习单一的初始化来处理,如同 MAML 所做的那样。因此,HSML 通过学习任务表示来显式地为不同的任务集群定制可转移的知识,每个任务集群都有自己的初始化参数(图11)。
通过元学习进行快速上下文适应(Fast Context Adaptation Via Meta-Learning, CAVIA)
CAVIA^38^: 是 MAML 的一个简单扩展,具有更好的可解释性和较低的过拟合风险。CAVIA 将模型参数 θ \theta θ 分为两部分:上下文参数 θ context \theta_{\text{context}} θcontext,作为模型的附加输入并适应于单个任务;共享参数 θ shared \theta_{\text{shared}} θshared,在多个任务中进行元训练并共享。在测试时,只有上下文参数会被更新,从而生成一个低维度的任务表示。
Meta-Transfer Learning (MTL)
在 MAML^14^: 中,元学习到的模型参数 θ \theta θ 被调整为 θ ∗ \theta^{\ast} θ∗ 以适应个别任务。然而,这种策略的有效性仅限于浅层网络,因为在深层网络中进行适应可能会导致过拟合。因此,Sun 等人^39^: 提出了一个称为元迁移学习(Meta-Transfer Learning, MTL)的方法(图12)。其核心思想是使用一个预训练的深度神经网络(DNN)作为特征提取器 Θ \Theta Θ,并仅对最后一层分类器的参数 θ \theta θ 进行元学习。此外,MTL 还通过学习缩放参数 ϕ S 1 \phi_{S1} ϕS1 和偏移参数 ϕ S 2 \phi_{S2} ϕS2 来调整 Θ \Theta Θ 以适应各个任务。与 Θ \Theta Θ 相比,缩放和偏移参数的数量较少。
潜在嵌入优化(Latent Embedding Optimization, LEO)
LEO^40^: 学习模型参数的低维潜在嵌入,并在该空间中进行基于优化的元学习。学习低维潜在表示的动机源于这样一个事实:在极少数据的情况下,在高维空间中进行优化是困难的。LEO 的优化过程如下所述:
-
预训练:
与 MTL 类似,输入特征嵌入不是通过学习获得的,而是在深度网络(WRN^21^:)上预训练的。使用元训练数据集,训练一个 ResNet 分类器以区分训练类。然后,使用该已训练分类器的中间层特征来获取输入嵌入。
-
内循环训练:
每个任务的数据集 D train D_{\text{train}} Dtrain 用于获取分类器 f f f 的初始参数 θ \theta θ。
- 训练集 D train D_{\text{train}} Dtrain 的预训练嵌入被输入到编码器-关系网络中,该网络输出每个类别的潜在表示 z z z(类似于原型)。
- 低维潜在表示通过解码器生成任务分类器参数 θ \theta θ。
- 分类器 f θ f_{\theta} fθ 的训练损失 L train L_{\text{train}} Ltrain 用于更新潜在表示 z z z。
-
外循环训练:
在每个任务的测试样本 D test D_{\text{test}} Dtest 上计算的损失 L test L_{\text{test}} Ltest 用于更新编码器、关系网络和解码器的参数。
从直观上看,这提供了两个优势。首先,新任务的初始参数依赖于训练数据,这为适应提供了任务特定的起点。其次,通过在低维潜在空间中进行优化,该方法可以更有效地调整模型的行为(图13)。
3.2.1.3 基于模型的元学习
度量方法的少样本学习(FSL)学习一个函数 g θ g_{\theta} gθ,基于度量生成判别嵌入,而基于优化的方法则学习先验 ϕ , θ \phi, \theta ϕ,θ,以快速优化参数。与这些方法不同,基于模型的元学习方法不对 P θ ( y ∣ x ) P_{\theta}(y \mid x) Pθ(y∣x) 的形式做任何假设,而是涉及专门为快速学习设计的模型架构。表7总结了这一类别的方法。根据模型架构( f θ f_{\theta} fθ)的类型,这些方法进一步分为基于记忆的、基于快速适应的和其他模型。
3.2.1.3.1 记忆作为组件
一类模型架构集成了一个外部记忆组件,以促进其学习过程。这个外部记忆组件通常是一个二维矩阵,称为记忆库、记忆矩阵或简单的记忆。记忆充当存储缓冲区,神经网络可以向其中写入新信息,并检索之前存储的信息。请注意,这个记忆组件不同于普通 RNN 或 LSTM 中的内部记忆。神经图灵机(Neural Turing Machine, NTM)^41^: 和记忆网络(Memory Networks)^42^, ^43^, ^44^: 是集成外部记忆到学习过程中的两种模型架构的例子。在少样本学习的背景下,作为外部组件的记忆可以减轻低数据情况下的训练负担,并加速泛化。接下来,我们讨论集成记忆的模型架构,并通过元学习从少量样本中学习。
记忆增强神经网络(Memory Augmented Neural Networks, MANN)
记忆增强神经网络(MANN)^45^: 使用修改后的 NTM 快速将新数据同化到记忆中,并利用这些数据在仅有少量样本后做出准确预测。
神经图灵机(Neural Turing Machine, NTM)
神经图灵机(NTM)将控制器神经网络与外部记忆存储结合起来(图14)。像大多数神经网络一样,控制器通过输入和输出向量与外部世界交互。与标准网络不同,控制器还学习通过软注意力来读写记忆行,而记忆充当知识存储库。注意力权重由其寻址机制生成。
MANN 中的寻址机制
MANN 的控制器是 LSTMs 或前馈网络。给定时间 t t t 时的某个输入 x t x_t xt,控制器生成一个关键特征向量 k t k_t kt,然后将其存储在记忆矩阵 M t M_t Mt 的一行中,或者用于从某一行中检索特定的记忆,即 M t ( i ) M_t(i) Mt(i)。记忆 r t r_t rt 使用加权向量 w t r ( i ) w^r_t(i) wtr(i) 检索,如下:
r t ← ∑ i w t r ( i ) M t ( i ) r_t \leftarrow \sum_i w^r_t(i) M_t(i) rt←i∑wtr(i)Mt(i)
其中:
w t r ( i ) = softmax ( k t ⋅ M t ( i ) ∥ k t ∥ ⋅ ∥ M t ( i ) ∥ ) . w^r_t(i) = \text{softmax}\left( \frac{k_t \cdot M_t(i)}{\|k_t\| \cdot \|M_t(i)\|} \right). wtr(i)=softmax(∥kt∥⋅∥Mt(i)∥kt⋅Mt(i)).
在 MANN 模型中写入记忆涉及使用最近最少使用访问(LRUA)模块。LRUA 模块是一个纯基于内容的记忆写入器,它将记忆写入到最少使用的记忆位置或最近使用的记忆位置。
MANN 的元学习设置
在 NTM 外部记忆中进行的记忆编码和检索是快速的,每个时间步可能都会将向量表示替换或从记忆中取出。此功能使 NTM 成为元学习和少样本预测的理想选择,因为它能够通过缓慢更新权重进行长期存储,并通过外部记忆模块进行短期存储。MANN 的训练遵循之前讨论的任务式训练范式,不同的是,真实标签 y t y_t yt 以一个时间步的偏移形式呈现,即 { ( x t , y t − 1 ) , ( x t + 1 , y t ) , . . . } \{(x_t, y_{t-1}), (x_{t+1}, y_t), ...\} {(xt,yt−1),(xt+1,yt),...}。网络的任务是在给定时间步上输出适当的标签 y t y_t yt 对应的 x t x_t xt。这种机制防止网络通过其权重缓慢学习样本-类别绑定。相反,它必须学会将数据样本保存在记忆中,直到下一个时间步呈现相应的标签,然后样本-类别信息可以被绑定并存储以供后续使用(图15)。
记忆匹配网络(Memory Matching Networks, MM-Net)
记忆匹配网络(MM-Net)^46^: 将键值记忆网络(Key-Value Memory Networks)^44^: 的记忆模块集成到匹配网络(Matching Networks)^13^: 中。它扩展了基于度量的元学习思想,并引入了一个记忆模块,用于将整个支持集编码并泛化到记忆槽中。给定支持集 S S S,记忆模块通过写控制器将 N N N 个支持图像的序列编码到 M M M 个记忆槽中。对于每个支持图像 x x x 及其在记忆键空间中的嵌入表示 z z z,读控制器通过点积相似度衡量输入支持图像与记忆槽之间的关系,以检索条件表示 g ( x ∣ M ) g(x \mid M) g(x∣M)。同时,设计了一个上下文学习器,用于预测卷积神经网络(CNN)参数,以嵌入查询集中未标记的图像。
3.2.1.3.2 快速适应
以下基于模型的方法使用类似"快速权重"(fast-weights)的技术来快速调整模型的参数以适应给定的任务。通常,神经网络中的权重通过在目标函数中的随机梯度下降(SGD)进行更新,而该过程是缓慢的。一种更快的学习方式是利用一个神经网络来预测另一个神经网络的参数,生成的权重称为快速权重。相比之下,基于普通 SGD 的权重称为慢速权重。
元网络(Meta Networks, MetaNet)
元网络(MetaNet)^47^: 是一个为任务快速泛化设计的元学习模型,具有专门的架构和训练过程。它由两个主要的学习组件组成:基础学习器和元学习器,并配备有一个外部记忆模块。MetaNet 的快速泛化依赖于快速权重。外部记忆用于存储这些快速权重和输入表示。
在 MetaNet 中,损失梯度被用作元信息,填充学习快速权重的模型。慢速权重和快速权重相结合,在神经网络中用于进行预测。
条件移位神经元(Conditionally Shifted Neurons, CSNs)
条件移位神经元(CSNs)^48^: 通过任务特定的移位来修改它们的激活值,这些移位从记忆模块中检索,并基于有限的任务经验快速填充。基于元网络(Meta-Networks),CSNs 也有一个基础学习器、一个元学习器和一个记忆模块。学习过程如下进行:
- 基础学习器在个别任务上工作。它使用当前的权重在支持集上的样本上进行预测(描述阶段)。
- 每次从支持集的预测所产生的损失会以条件信息 I I I 的形式存储在键值记忆中,键为输入的嵌入,值为条件信息。
- 要对查询进行分类(预测阶段),将其嵌入与记忆中键的嵌入使用余弦相似度进行比较,相似度得分通过 softmax 加权。每个键的条件信息根据其相似度得分加权并汇总,得到联合条件信息。
- 基础网络使用这个联合条件信息进行更新,并用更新后的权重对查询进行预测。
- 然后,查询产生的损失用于更新键嵌入网络 f f f、值网络 g g g 以及预测网络(最初的基础网络)。
3.2.1.3.3 其他模型:SNAIL
SNAIL^49^: 每个 episode 接收一系列示例-标签对作为输入 ( x 1 , y 1 ) , ... , ( x t − 1 , y t − 1 ) (x_1, y_1), \ldots, (x_{t-1}, y_{t-1}) (x1,y1),...,(xt−1,yt−1) 对应时间步 1 到 t − 1 t-1 t−1,然后接收一个未标记的示例 ( x t , _ ) (x_t, \) (xt,)(图19)。它的任务是基于之前看到的带标签的示例对 x t x_t xt 进行预测。SNAIL 将元学习形式化为一个序列到序列的问题,认为元学习器应该能够内化并参考过去的经验。它提出了使用嵌入网络,并交替使用时间卷积层和因果注意力层;前者用于从过去的经验中聚合信息,后者用于定位具体的信息片段。SNAIL 中的时间卷积层提供了对过去经验的高带宽访问,而不受其有效使用经验量的限制。与传统的 RNN(如 LSTM 或 GRU)相比,SNAIL 架构更容易训练,并且可以有效地实现,使得整个序列可以在一次前向传播中处理。
3.2.2 混合方法
本节讨论了少样本学习问题的变体以及基于混合元学习的解决方案。表8列出了混合方法,并总结了它们背后的关键思想。
跨模态少样本学习(Cross-Modal Few-Shot Learning)
最近在少样本图像分类方面的进展主要是在单模态学习的背景下取得的。为了缓解图像领域中数据有限的问题,一些方法^50^, ^51^: 使用来自不同模态(例如文本)的数据。这被称为跨模态少样本学习。例如,Xing 等人^51^: 提出了一个自适应模态混合机制(Adaptive Modality Mixture Mechanism, AM3),通过结合图像及其标签的词嵌入来构建其类别的更好原型。
半监督少样本学习(Semi-Supervised Few-Shot Learning)
半监督少样本学习考虑的是在训练期间有有限标注数据但有足够的未标注数据的场景。例如,在使用元学习进行少样本分类的方法中,支持集(标注数据)上的弱监督分类器学习为未标注数据打标签,进而利用这些数据改进其在分类任务上的性能。基于度量的元学习方法中,Ren 等人^52^: 提出了三种原型网络^22^: 的半监督变体,主要通过使用软 k k k-均值方法调整聚类中心来利用未标注数据。Sun 等人^53^: 则提出了一种基于优化的元学习方法,用于初始化半监督少样本学习的分类模型。
广义少样本学习(Generalized Few-Shot Learning)
通常,少样本学习方法在基础(已见)类上进行元训练,在新颖(未见)类上进行元测试。对于从元测试集中抽样的新任务,少样本分类器会将查询分类到该任务支持集(任务训练集)中的某个类别中,但无法识别查询示例是否来自基础类。广义少样本学习(GFSL)专注于同时对基础类和新颖类进行联合分类。具体而言,其目标是让在已见类别上训练的模型能够整合有限的未见类别实例,并对基础类和新颖类的测试/查询实例进行预测。Gidaris 和 Komodakis^54^、Ye 等人^55^ 和 Ren 等人^56^ 的最新研究试图解决这一问题。
生成式少样本学习(Generative Few-Shot Learning)
一种常见的缓解少样本学习问题的方式是通过合成样本来扩充训练集。为此,Wang 等人^57^: 提出了一种元学习方法,从有限数据中生成样本。这种生成模型被称为幻觉器(hallucinator),其作用是将真实样本映射到幻觉样本。少样本训练集首先输入到幻觉器中,产生扩展的训练集,随后学习器使用该扩展的训练集进行学习。我们将这种方法称为生成式少样本学习。
跨域少样本学习(Cross Domain Few-Shot Learning)
在前面讨论的少样本分类方法中,目标是通过每类仅有少量标注示例来识别新类别。一个假设是,所有的少样本任务都属于相同的分布或领域。例如,大多数方法在训练和测试期间都从 miniImageNet 中抽样任务。虽然这种假设下的结果很有前景,但现有方法往往难以推广到未见领域,因为不同领域的特征分布差异较大。这种领域转换下的少样本学习问题被称为跨域少样本学习。为此,Tseng 等人^58^: 的早期工作通过在训练阶段模拟不同领域下的各种特征分布来解决这个问题。
传递式少样本学习(Transductive Few-Shot Learning)
尽管元学习作为少样本学习的一种有效策略旨在推广到未见的分类任务,但在新分类任务中,学习稀少数据的根本困难仍然存在。一种在有限训练数据下取得更大改进的方式是考虑测试集实例之间的关系,从而将它们作为一个整体进行预测,这被称为传递推理(transductive inference)^59^:。因此,传递式少样本学习技术^29^, ^60^, ^61^: 利用查询集中的未标注示例作为整体的信息来对个体查询进行预测。例如,Liu 等人^60^: 提出了传递传播网络(Transductive Propagation Networks),其中支持集和查询集中的示例被建模为图的节点。支持集节点的标签已知,任务是使用标签传播算法预测查询集节点的标签。
无监督少样本学习(Unsupervised Few-Shot Learning)
在监督少样本学习中,支持集中的示例在训练期间是有标签的,而查询集中的示例标签需要被估计。相比之下,在无监督少样本学习中,支持集中的示例也是未标注的。Huang 等人^62^: 提出了一种无监督少样本分类策略,首先对支持集中的示例进行聚类,然后将查询示例分配到其中一个聚类中。
零样本学习(Zero-Shot Learning, ZSL)
零样本学习^63^: 试图在没有该任务的任何训练示例的情况下解决任务。对于图像分类任务,ZSL 方法主要依赖于视觉-辅助模态对齐。通常,辅助数据是图像的标签,即来自两种模态的相同类别的样本被映射在一起,以便两种模态获得相同的语义结构。由于 ZSL 在学习新概念时无法访问任何视觉信息,因此 ZSL 模型只能选择对齐这两种模态。这样,在测试时可以直接将图像查询与辅助信息进行比较来执行分类^64^:。
3.3 基于非元学习的少样本学习
在本节中,我们讨论了除了元学习以外的在数据有限情况下有助于学习的策略。
3.3.1 迁移学习
迁移学习^65^: 是通过从已经学到的相关任务中迁移知识来提高新任务的学习效果。在少样本学习的场景下,由于数据太少而无法从头训练一个深度网络,因此从另一个网络迁移知识可能是一个可行的选择。对于分类任务,这种知识迁移是通过在基础类(已见)上使用大量训练数据预训练深度网络,然后在少样本类(未见)上进行微调来实现的。然而,仅使用少量示例进行简单微调可能导致过拟合,从而在少样本任务上的泛化性能不佳。因此,本节我们讨论了试图解决这一问题的方法。
使用预训练网络的嵌入进行距离度量分类
在第 3.2.1.1 节中,我们讨论了使用元学习来提取特征嵌入,并使用带有距离度量的最近邻分类器进行分类的方法。而 SimpleShot^66^: 则使用预训练的深度网络获取输入图像和查询图像的特征嵌入,对获取的特征进行中心化和 L 2 L_2 L2 正则化,并使用欧几里得距离作为最近邻分类的距离度量。与元学习方法相比,这种简单的方法显示了显著的准确率提升。同样地,Chen 等人^67^: 通过使用预训练网络获得的嵌入,并使用余弦度量进行最近邻分类,也展示了类似的效果。
使用预训练网络的嵌入训练新分类器
当训练样本数量有限时,从头训练分类器是不可行的,因为生成的表示效果很差。然而,仍然可以从预训练网络中获取表示,然后使用这些表示训练新的分类器。Tian 等人^68^: 证明了这一点。他们不仅使用了预训练网络的表示,还在为每个少样本任务训练新分类器之前对这些表示进行了 L 2 L_2 L2 正则化。他们还展示了这种方法优于使用预训练嵌入进行的简单最近邻分类。
使用预训练网络嵌入进行传递推理
某些方法尝试利用查询集中存在的信息结构,集体分类查询集中的示例。这被称为传递推理。例如,在第 3.2.2 节中,我们提到了使用元学习进行传递式标签分配的传递传播网络(Transductive Propagation Networks, TPN)^60^:。不同的是,Dhillon 等人^69^: 选择在给定的少样本任务上对预训练网络进行传递式微调。这意味着,除了支持示例(带标签)之外,查询示例也被用于微调过程中。所提出的传递式微调阶段解决了以下问题:
θ ∗ = arg min θ ( 1 ∣ S ∣ ∑ ( x , y ) ∈ S − log p θ ( y ∣ x ) + 1 ∣ Q ∣ ∑ x ∈ Q H ( p θ ( ⋅ ∣ x ) ) ) . (18) \theta^{\ast} = \arg \min_{\theta} \left( \frac{1}{|S|} \sum_{(x, y) \in S} - \log p_{\theta}(y \mid x) + \frac{1}{|Q|} \sum_{x \in Q} H(p_{\theta}(\cdot \mid x)) \right). \tag{18} θ∗=argθmin ∣S∣1(x,y)∈S∑−logpθ(y∣x)+∣Q∣1x∈Q∑H(pθ(⋅∣x)) .(18)
该公式中的第一项是使用标注支持样本的数据拟合项,第二项(正则化项)使用未标注的查询样本以最小化预测的熵。
同样地,Ziko 等人^70^: 提出了少样本任务的传递拉普拉斯正则化推理。他们使用从基础类(预训练)学习到的特征嵌入,最小化包含两个项的二次二元分配函数:
E ( Y ) = N ( Y ) + λ 2 L ( Y ) , (19) E(Y) = N(Y) + \frac{\lambda}{2} L(Y), \tag{19} E(Y)=N(Y)+2λL(Y),(19)
其中
N ( Y ) = ∑ q = 1 N ∑ c = 1 C y q , c d ( x q − m c ) , N(Y) = \sum_{q=1}^{N} \sum_{c=1}^{C} y_{q,c} d(x_q - m_c), N(Y)=q=1∑Nc=1∑Cyq,cd(xq−mc),
L ( Y ) = 1 2 ∑ q , p w ( x q , x p ) ∥ y q − y p ∥ 2 . L(Y) = \frac{1}{2} \sum_{q,p} w(x_q, x_p) \| y_q - y_p \|^2. L(Y)=21q,p∑w(xq,xp)∥yq−yp∥2.
- N ( Y ) N(Y) N(Y),一元项,当每个查询点被分配到最近原型 m c m_c mc(从支持集中获得)的类时,全局最小化使用距离度量 d ( x q , m c ) d(x_q, m_c) d(xq,mc)。
- L ( Y ) L(Y) L(Y),成对拉普拉斯项,鼓励标签空间中相邻点( x p , x q x_p, x_q xp,xq)获得相同的潜在标签分配( w w w 是任意相似度度量)。
这些基于迁移学习的方法通常在少样本学习任务中表现出比之前讨论的复杂元学习方法更好或相当的性能。
3.3.2 其他方法:自动编码器(Autoencoders)
Mocanu^71^: 提出了一个一类学习方法,称为 MoVAE(混合变分自动编码器, Mixture of Variational Autoencoders),用于进行分类。变分自动编码器(VAE)^72^: 以一种概率的方式在潜在空间中描述观测值。因此,VAE 编码器不是输出一个单一的值来描述每个潜在状态属性,而是输出一个概率分布来描述每个潜在属性。给定 C C C 类别,训练 C C C 个 VAE,每个类别对应一个 VAE。然后通过测量来自 VAE 的重构损失来对未标记的数据样本进行分类。这种方法的缺点是,即使在测试阶段,也需要为每个新任务构建并训练新的自动编码器。相比之下,大多数元学习方法可以直接在测试时使用,无需额外的训练。
4 小样本学习的进展
早期的少样本学习研究主要集中在计算机视觉应用上,特别是图像分类^13^, ^22^, ^24^, ^14^:。这是因为视觉信息容易获取,并且已经在机器学习中得到了广泛的研究。其他计算机视觉问题,如目标检测^73^, ^74^, ^75^, ^76^: 和分割^77^:,也在最近受到了少样本学习社区的关注。除了计算机视觉应用,少样本学习还被用于故障诊断^78^:、文本分类^79^, ^80^:、图像着色^81^: 以及冷启动项目推荐^82^, ^83^:。在图模型中,少样本学习被用于节点分类^84^:、边标注^85^: 和关系分类^86^:。在音频领域,它被用于少样本说话人识别^87^, ^88^: 和声音识别^89^:。最后,在机器人和控制领域,它被用于模仿学习^90^: 以及强化学习中的控制任务^14^, ^91^:。
自2016年少样本学习兴起以来,该领域在从有限数据中学习方面展现出了有希望的进展。图20展示了 miniImageNet 数据集^13^: 上 5-way 1-shot 分类任务的准确率提高趋势。从最早的匹配网络(Matching Networks)^13^: 的43% 准确率开始,过去四年中,提出了各种基于优化、度量、模型和混合的方法,将准确率推升到了80%(截至2020年1月)。尽管基于模型的方法进展较少,但尚未达成共识认为某种方法是未来发展的最佳途径。表9列出了本综述中讨论的各方法的准确率(按 1-shot 准确率排序并按类型进行颜色编码)。度量学习、优化学习、混合元学习以及非元学习方法似乎都在竞争中处于领先地位。
-
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. InProceedings of the IEEE conference on computer vision and pattern recognition, pages 770--778, 2016. ↩︎ ↩︎
-
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Lukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. Google's neural machine translation system: Bridging the gap between human and machine translation. CoRR, abs/1609.08144, 2016. ↩︎
-
Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499, 2016. ↩︎
-
Yaqing Wang, Quanming Yao, James T. Kwok, and Lionel M. Ni. Generalizing from a few examples: A survey on few-shot learning. 2019. ↩︎
-
Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. A closer look at few-shot classification. ArXiv, abs/1904.04232, 2019. ↩︎
-
Lilian Weng. Meta-learning: Learning to learn fast. 2018. ↩︎
-
Jurgen Schmidhuber. Evolutionary principles in self-referential learning. on learning now to learn: The metameta-meta...-hook. Diploma thesis, Technische Universitat Munchen, Germany, 14 May 1987. ↩︎
-
T. Schaul and J. Schmidhuber. Metalearning. Scholarpedia, 5(6):4650, 2010. revision #91489. ↩︎
-
Sebastian Thrun and Lorien Pratt, editors. Learning to Learn. Kluwer Academic Publishers, USA, 1998. ↩︎
-
Sinno Jialin Pan and Qiang Yang. A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10):1345--1359, 2009. ↩︎
-
Rich Caruana. Multitask Learning, pages 95--133. Springer US, Boston, MA, 1998. ↩︎
-
R. Polikar. Ensemble learning. Scholarpedia, 4(1):2776, 2009. revision #186077. ↩︎
-
Oriol Vinyals, Charles Blundell, Timothy P. Lillicrap, Koray Kavukcuoglu, and Daan Wierstra. Matching networks for one shot learning. CoRR, abs/1606.04080, 2016. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. CoRR, abs/1703.03400, 2017. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Oriol Vinyals. Model vs optimization meta learning. Meta-Learning Symposium at NIPS, 2017. ↩︎ ↩︎
-
Brian Kulis. Metric learning: A survey. Foundations and Trends® in Machine Learning, 5(4):287--364, 2013. ↩︎
-
Jane Bromley, James W. Bentz, Léon Bottou, Isabelle Guyon, Yann LeCun, Cliff Moore, Eduard Säckinger, and Roopak Shah. Signature verification using a "siamese" time delay neural network. In IJPRAI, 1993. ↩︎
-
Gregory R. Koch. Siamese neural networks for one-shot image recognition. 2015. ↩︎
-
Yann Lecun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. In Proceedings of the IEEE, pages 2278--2324, 1998. ↩︎
-
Akshay Mehrotra and Ambedkar Dukkipati. Skip residual pairwise networks with learnable comparative functions for few-shot learning. In IEEE Winter Conference on Applications of Computer Vision, WACV 2019, Waikoloa Village, HI, USA, January 7-11, 2019, pages 886--894. IEEE, 2019. ↩︎
-
Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. In Edwin R. Hancock Richard C. Wilson and William A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), pages 87.1--87.12. BMVA Press, September 2016. ↩︎ ↩︎
-
Jake Snell, Kevin Swersky, and Richard S. Zemel. Prototypical networks for few-shot learning. In NIPS, 2017. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Xianchao Zhang, Jinlong Nie, Linlin Zong, Hong Yu, and Wenxin Liang. One shot learning with margin. InPAKDD, 2019. ↩︎
-
Boris N. Oreshkin, Pau Rodríguez López, and Alexandre Lacoste. Tadam: Task dependent adaptive metric for improved few-shot learning. In NeurIPS, 2018. ↩︎ ↩︎ ↩︎
-
Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean. Distilling the knowledge in a neural network. ArXiv, abs/1503.02531, 2015. ↩︎
-
Sung Whan Yoon, Jun Seo, and Jaekyun Moon. Tapnet: Neural network augmented with task-adaptive projection for few-shot learning. In ICML, 2019. ↩︎
-
Hongyang Li, David Eigen, Samuel F. Dodge, Matthew D. Zeiler, and Xiaogang Wang. Finding task-relevant features for few-shot learning by category traversal. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1--10, 2019. ↩︎
-
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017. ↩︎
-
Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, and Xilin Chen. Cross attention network for few-shot classification. In NeurIPS, 2019. ↩︎ ↩︎
-
Fusheng Hao, Fengxiang He, Jun Cheng, Lei Wang, Jian zhong Cao, and Dacheng Tao. Collect and select: Semantic alignment metric learning for few-shot learning. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 8459--8468, 2019. ↩︎
-
Marcin Andrychowicz, Misha Denil, Sergio Gomez Colmenarejo, Matthew W. Hoffman, David Pfau, Tom Schaul, and Nando de Freitas. Learning to learn by gradient descent by gradient descent. In NIPS, 2016. ↩︎
-
Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. In ICLR, 2017. ↩︎
-
Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural Computation, 9:1735--1780, 1997. ↩︎
-
Eleni Triantafillou, Tyler Zhu, Vincent Dumoulin, Pascal Lamblin, Kelvin Xu, Ross Goroshin, Carles Gelada, Kevin Swersky, Pierre-Antoine Manzagol, and Hugo Larochelle. Meta-dataset: A dataset of datasets for learning to learn from few examples. ArXiv, abs/1903.03096, 2020. ↩︎
-
Muhammad Abdullah Jamal, Guo-Jun Qi, and Mubarak Shah. Task agnostic meta-learning for few-shot learning. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11711--11719, 2018. ↩︎
-
Antreas Antoniou, Harrison A Edwards, and Amos J. Storkey. How to train your maml. ArXiv, abs/1810.09502, 2018. ↩︎ ↩︎
-
Huaxiu Yao, Ying Wei, Junzhou Huang, and Zhenhui Li. Hierarchically structured meta-learning. In ICML, 2019. ↩︎
-
Luisa M. Zintgraf, Kyriacos Shiarlis, Vitaly Kurin, Katja Hofmann, and Shimon Whiteson. Fast context adaptation via meta-learning. In ICML, 2019. ↩︎
-
Qianru Sun, Yaoyao Liu, Tat-Seng Chua, and Bernt Schiele. Meta-transfer learning for few-shot learning. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 403--412, 2018. ↩︎
-
Andrei A. Rusu, Dushyant Rao, Jakub Sygnowski, Oriol Vinyals, Razvan Pascanu, Simon Osindero, and Raia Hadsell. Meta-learning with latent embedding optimization. ArXiv, abs/1807.05960, 2018. ↩︎
-
Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines. ArXiv, abs/1410.5401, 2014. ↩︎
-
Jason Weston, Sumit Chopra, and Antoine Bordes. Memory networks. CoRR, abs/1410.3916, 2015. ↩︎
-
Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In NIPS, 2015. ↩︎
-
Alexander H. Miller, Adam Fisch, Jesse Dodge, Amir-Hossein Karimi, Antoine Bordes, and Jason Weston. Key-value memory networks for directly reading documents. ArXiv, abs/1606.03126, 2016. ↩︎ ↩︎
-
Adam Santoro, Sergey Bartunov, Matthew M Botvinick, Daan Wierstra, and Timothy P. Lillicrap. One-shot learning with memory-augmented neural networks. ArXiv, abs/1605.06065, 2016. ↩︎
-
Qi Cai, Yingwei Pan, Ting Yao, Chenggang Clarence Yan, and Tao Mei. Memory matching networks for one-shot image recognition. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4080--4088, 2018. ↩︎
-
Tsendsuren Munkhdalai and Hong Yu. Meta networks. Proceedings of machine learning research, 70:2554--2563, 2017. ↩︎
-
Tsendsuren Munkhdalai, Xingdi Yuan, Soroush Mehri, and Adam Trischler. Rapid adaptation with conditionally shifted neurons. In ICML, 2017. ↩︎
-
Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. A simple neural attentive meta-learner. In ICLR, 2017. ↩︎
-
Peng Wang, Lingqiao Liu, Chunhua Shen, Zi Huang, Anton van den Hengel, and Heng Tao Shen. Multi-attention network for one shot learning. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6212--6220, 2017. ↩︎
-
Chen Xing, Negar Rostamzadeh, Boris N. Oreshkin, and Pedro H. O. Pinheiro. Adaptive cross-modal few-shot learning. In NeurIPS, 2019. ↩︎ ↩︎
-
Mengye Ren, Eleni Triantafillou, Sachin Ravi, Jake Snell, Kevin Swersky, Joshua B. Tenenbaum, Hugo Larochelle, and Richard S. Zemel. Meta-learning for semi-supervised few-shot classification. ArXiv, abs/1803.00676, 2018. ↩︎
-
Qianru Sun, Xinzhe Li, Yaoyao Liu, Shibao Zheng, Tat-Seng Chua, and Bernt Schiele. Learning to self-train for semi-supervised few-shot classification. In NeurIPS, 2019. ↩︎
-
Spyros Gidaris and Nikos Komodakis. Dynamic few-shot visual learning without forgetting. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4367--4375, 2018. ↩︎
-
Han-Jia Ye, Hexiang Hu, De-Chuan Zhan, and Fei Sha. Learning classifier synthesis for generalized few-shot learning. ArXiv, abs/1906.02944, 2019. ↩︎
-
Mengye Ren, Renjie Liao, Ethan Fetaya, and Richard S. Zemel. Incremental few-shot learning with attention attractor networks. In NeurIPS, 2019. ↩︎
-
Yu-Xiong Wang, Ross B. Girshick, Martial Hebert, and Bharath Hariharan. Low-shot learning from imaginary data. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7278--7286, 2018. ↩︎
-
Hung-Yu Tseng, Hsin-Ying Lee, Jia-Bin Huang, and Ming-Hsuan Yang. Cross-domain few-shot classification via learned feature-wise transformation. ArXiv, abs/2001.08735, 2020. ↩︎
-
Vladimir N. Vapnik. Transductive inference and semi-supervised learning. In Semi-Supervised Learning, 2006. ↩︎
-
Yanbin Liu, Juho Lee, Minseop Park, Saehoon Kim, Eunho Yang, SungJu Hwang, and Yang Yang. Learning to propagate labels: Transductive propagation network for few-shot learning. In ICLR, 2019. ↩︎ ↩︎ ↩︎
-
Antreas Antoniou and Amos J. Storkey. Learning to learn via self-critique. ArXiv, abs/1905.10295, 2019. ↩︎
-
Gabriel Huang, Hugo Larochelle, and Simon Lacoste-Julien. Centroid networks for few-shot clustering and unsupervised few-shot classification. ArXiv, abs/1902.08605, 2019. ↩︎
-
Yongqin Xian, Bernt Schiele, and Zeynep Akata. Zero-shot learning - the good, the bad and the ugly. CoRR, abs/1703.04394, 2017. ↩︎
-
Li Zhang, Tao Xiang, and Shaogang Gong. Learning a deep embedding model for zero-shot learning. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3010--3019, 2017. ↩︎
-
Lisa Torrey and Jude Shavlik. Transfer learning. In Handbook of research on machine learning applications and trends: algorithms, methods, and techniques, pages 242--264. IGI Global, 2010. ↩︎
-
Yan Wang, Wei-Lun Chao, Kilian Q. Weinberger, and Laurens van der Maaten. Simpleshot: Revisiting nearestneighbor classification for few-shot learning. ArXiv, abs/1911.04623, 2019. ↩︎
-
Yinbo Chen, Xiaolong Wang, Zhuang Liu, Huijuan Xu, and Trevor Darrell. A new meta-baseline for few-shot learning. ArXiv, abs/2003.04390, 2020. ↩︎
-
Yonglong Tian, Yue Wang, Dilip Krishnan, Joshua B. Tenenbaum, and Phillip Isola. Rethinking few-shot image classification: a good embedding is all you need?, 2020. ↩︎
-
Guneet S. Dhillon, P. Chaudhari, Avinash Ravichandran, and Stefano Soatto. A baseline for few-shot image classification. ArXiv, abs/1909.02729, 2019. ↩︎
-
Imtiaz Masud Ziko, Jose Dolz, Éric Granger, and Ismail Ben Ayed. Laplacian regularized few-shot learning. ArXiv, abs/2006.15486, 2020. ↩︎
-
Decebal Constantin Mocanu and Elena Mocanu. One-shot learning using mixture of variational autoencoders: a generalization learning approach. ArXiv, abs/1804.07645, 2018. ↩︎
-
Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013. ↩︎
-
Hao Chen, Yali Wang, Guoyou Wang, and Yu Qiao. Lstd: A low-shot transfer detector for object detection. ArXiv, abs/1803.01529, 2018. ↩︎
-
Bingyi Kang, Zhuang Liu, Xin Wang, Fisher Yu, Jiashi Feng, and Trevor Darrell. Few-shot object detection via feature reweighting. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 8419--8428, 2018. ↩︎
-
Qi Fan, Wei Zhuo, and Yu-Wing Tai. Few-shot object detection with attention-rpn and multi-relation detector. ArXiv, abs/1908.01998, 2019. ↩︎
-
Eli Schwartz, Leonid Karlinsky, Joseph Shtok, Sivan Harary, Mattias Marder, Sharath Pankanti, Rogério Schmidt Feris, Abhishek Kumar, Raja Giryes, and Alexander M. Bronstein. Repmet: Representative-based metric learning for classification and few-shot object detection. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5192--5201, 2018. ↩︎
-
Claudio Michaelis, Ivan Ustyuzhaninov, Matthias Bethge, and Alexander S. Ecker. One-shot instance segmentation. ArXiv, abs/1811.11507, 2018. ↩︎
-
Ansi Zhang, Shaobo Li, Yuxin Cui, Wanli Yang, Rongzhi Dong, and Jianjun Hu. Limited data rolling bearing fault diagnosis with few-shot learning. IEEE Access, 7:110895--110904, 2019. ↩︎
-
Mo Yu, Xiaoxiao Guo, Jinfeng Yi, Shiyu Chang, Saloni Potdar, Yu Cheng, Gerald Tesauro, Haoyu Wang, and Bowen Zhou. Diverse few-shot text classification with multiple metrics. arXiv preprint arXiv:1805.07513, 2018. ↩︎
-
Shumin Deng, Ningyu Zhang, Zhanlin Sun, Jiaoyan Chen, and Huajun Chen. When low resource nlp meets unsupervised language model: Meta-pretraining then meta-learning for few-shot text classification. arXiv, pages arXiv--1908, 2019. ↩︎
-
Seungjoo Yoo, Hyojin Bahng, Sunghyo Chung, Junsoo Lee, Jaehyuk Chang, and Jaegul Choo. Coloring with limited data: Few-shot colorization via memory augmented networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11283--11292, 2019. ↩︎
-
Manasi Vartak, Arvind Thiagarajan, Conrado Miranda, Jeshua Bratman, and Hugo Larochelle. A meta-learning perspective on cold-start recommendations for items. In NIPS, 2017. ↩︎
-
Zhengxiao Du, Xiaowei Wang, Hongxia Yang, Jingren Zhou, and Jie Tang. Sequential scenario-specific meta learner for online recommendation. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019. ↩︎
-
Fan Zhou, Chengtai Cao, Kunpeng Zhang, Goce Trajcevski, Ting Zhong, and Ji Geng. Meta-gnn: On few-shot node classification in graph meta-learning. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management, pages 2357--2360, 2019. ↩︎
-
Jongmin Kim, Taesup Kim, Sungwoong Kim, and Chang D Yoo. Edge-labeling graph neural network for few-shot learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11--20, 2019. ↩︎
-
Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. Fewrel: A large-scale supervised few-shot relation classification dataset with state-of-the-art evaluation. In EMNLP, 2018. ↩︎
-
Prashant Anand, Ajeet Kumar Singh, Siddharth Srivastava, and Brejesh Lall. Few shot speaker recognition using deep neural networks. arXiv preprint arXiv:1904.08775, 2019. ↩︎
-
Archit Parnami and Minwoo Lee. Few-shot keyword spotting with prototypical networks. arXiv preprint arXiv:2007.14463, 2020. ↩︎
-
Szu-Yu Chou, Kai-Hsiang Cheng, Jyh-Shing Roger Jang, and Yi-Hsuan Yang. Learning to match transient sound events using attentional similarity for few-shot sound recognition. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 26--30. IEEE, 2019. ↩︎
-
Yan Duan, Marcin Andrychowicz, Bradly Stadie, OpenAI Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, and Wojciech Zaremba. One-shot imitation learning. In Advances in neural information processing systems, pages 1087--1098, 2017. ↩︎
-
Richard S Sutton and Andrew G Barto. Reinforcement learning: An introduction. MIT press, 2018. ↩︎