机器学习周报三十六

摘要

本周阅读了一篇关于空间转换器的论文，虽然论文只是在早期的操作，但是也可以是一种轻量化的特征抽取模型。对我的实验有一定的启发。

Abstract

This week, I read a paper on spatial transformers. Although the paper is only in its early stages of development, it can still serve as a lightweight feature extraction model. It provides some inspiration for my experiments.

1 空间转换器

背景

图像识别任务的理想是把物体的特征提取出来，不管是物体经过旋转、缩放等，CNN中的局部最大池化可以提取特征，但是尺寸太小了，比如 2 × 2 2\times 2 2×2个像素大小。需要堆叠很多层池化才能捕捉到较大的特征不变性。

空间转换器模块是一种动态机制，可以通过为每个输入样本生成适当的转换来主动地空间转换图像（或特征图）。然后在整个特征图上执行转换（非局部），可以包括缩放、裁剪、旋转以及非刚性变形。这使得包含空间转换器的网络不仅可以选择图像中最相关（注意力）的区域，还可以将这些区域转换为规范的、预期的姿势，以简化后续层的识别。值得注意的是，空间转换器可以使用标准反向传播进行训练，允许对它们注入的模型进行端到端训练。

空间转换器

参数预测：一个小型的神经网络，接受特征图U的输入，然后输出要对该特征进行空间变换的参数 η \eta η。不同的任务有不同的参数，由任务决定，但是值由模型训练。

网格生成器：创建一个规则网络 G = G i G={G_i} G=Gi，每一个 G i = ( x i t , y i t ) G_i=(x_i^t,y_i^t) Gi=(xit,yit)代表输出图V上的一个目标坐标；变换操作T，将V中的每一个点，映射到特征图U上，得到一组源坐标 ( x i s , y i s ) (x_i^s,y_i^s) (xis,yis)，然后执行对应的变换T，例如对于2D仿射变换，计算方式： ( x i s , y i s ) = η ∗ ( x i t , y i t ) (x_i^s,y_i^s)^=\eta*(x_i^t,y_i^t) (xis,yis)=η∗(xit,yit)。当前的输出的特征图V就是骨架。

可微分采样：输出特征图V上的每一个位置 ( x i t , y i t ) (x_i^t,y_i^t) (xit,yit)，根据源坐标 ( x i s , y i s ) (x_i^s,y_i^s) (xis,yis)，在U上去颜色值，采样双线性插值对周围四个像素点取平均。

2 应用

修改模型任务目标为残差，原始图片img1和目标图片img2之间只有文本不一致，背景部分是一致的，那么预测残差部分可以降低预测全图的复杂度。

总损失

注意力图

img_attn

text_attn
编辑效果

result

img1

img2
一张img1被划分为256个patch，那么就会有256个位置指令(pos_inst)，修改为残差之后，背景相同的区域不应该再使用位置指令随机自回归了，这样会浪费计算，而且随机顺序没有控制会导致模型大多数学习到的顺序都不相同(256!)，可能影响模型收敛。

那么就需要一个变换器来指导模型对哪些区域进行随机自回归预测是有效的。

总结

后续将会把空间转换器应用到实验中监督模型的生成，输入 $rec2,img1$ 到一个轻量级的GPT模型f，输出区域权重，然后再对选定的区域应用随机自回归，这样模型的泛化能力和收敛速度都会在理论上有所提升。