机器学习周报三十六

摘要

本周阅读了一篇关于空间转换器的论文,虽然论文只是在早期的操作,但是也可以是一种轻量化的特征抽取模型。对我的实验有一定的启发。

Abstract

This week, I read a paper on spatial transformers. Although the paper is only in its early stages of development, it can still serve as a lightweight feature extraction model. It provides some inspiration for my experiments.

1 空间转换器

  • 背景

图像识别任务的理想是把物体的特征提取出来,不管是物体经过旋转、缩放等,CNN中的局部最大池化可以提取特征,但是尺寸太小了,比如 2 × 2 2\times 2 2×2个像素大小。需要堆叠很多层池化才能捕捉到较大的特征不变性。

空间转换器模块是一种动态机制,可以通过为每个输入样本生成适当的转换来主动地空间转换图像(或特征图)。然后在整个特征图上执行转换(非局部),可以包括缩放、裁剪、旋转以及非刚性变形。这使得包含空间转换器的网络不仅可以选择图像中最相关(注意力)的区域,还可以将这些区域转换为规范的、预期的姿势,以简化后续层的识别。值得注意的是,空间转换器可以使用标准反向传播进行训练,允许对它们注入的模型进行端到端训练。

  • 空间转换器

参数预测:一个小型的神经网络,接受特征图U的输入,然后输出要对该特征进行空间变换的参数 η \eta η。不同的任务有不同的参数,由任务决定,但是值由模型训练。

网格生成器:创建一个规则网络 G = G i G={G_i} G=Gi,每一个 G i = ( x i t , y i t ) G_i=(x_i^t,y_i^t) Gi=(xit,yit)代表输出图V上的一个目标坐标;变换操作T,将V中的每一个点,映射到特征图U上,得到一组源坐标 ( x i s , y i s ) (x_i^s,y_i^s) (xis,yis),然后执行对应的变换T,例如对于2D仿射变换,计算方式: ( x i s , y i s ) = η ∗ ( x i t , y i t ) (x_i^s,y_i^s)^=\eta*(x_i^t,y_i^t) (xis,yis)=η∗(xit,yit)。当前的输出的特征图V就是骨架。

可微分采样:输出特征图V上的每一个位置 ( x i t , y i t ) (x_i^t,y_i^t) (xit,yit),根据源坐标 ( x i s , y i s ) (x_i^s,y_i^s) (xis,yis),在U上去颜色值,采样双线性插值对周围四个像素点取平均。

2 应用

修改模型任务目标为残差,原始图片img1和目标图片img2之间只有文本不一致,背景部分是一致的,那么预测残差部分可以降低预测全图的复杂度。

总损失

注意力图

img_attn

text_attn
编辑效果

result

img1

img2
一张img1被划分为256个patch,那么就会有256个位置指令(pos_inst),修改为残差之后,背景相同的区域不应该再使用位置指令随机自回归了,这样会浪费计算,而且随机顺序没有控制会导致模型大多数学习到的顺序都不相同(256!),可能影响模型收敛。

那么就需要一个变换器来指导模型对哪些区域进行随机自回归预测是有效的。

总结

后续将会把空间转换器应用到实验中监督模型的生成,输入[rec2,img1]到一个轻量级的GPT模型f,输出区域权重,然后再对选定的区域应用随机自回归,这样模型的泛化能力和收敛速度都会在理论上有所提升。

相关推荐
lijianhua_97128 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
蔡俊锋8 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语8 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背8 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
eastyuxiao8 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
诸葛务农9 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
光影少年9 小时前
AI Agent智能体开发
人工智能·aigc·ai编程
ai生成式引擎优化技术9 小时前
TSPR-WEB-LLM-HIC (TWLH四元结构)AI生成式引擎(GEO)技术白皮书
人工智能
帐篷Li9 小时前
9Router:开源AI路由网关的架构设计与技术实现深度解析
人工智能
新缸中之脑9 小时前
在GCP上运行autoresearch
人工智能