ViTMatte:Boosting image matting with pretrained plain vision transformers

自sora之后,我也要多思考,transformer的scaling law在各个子领域中是不是真的会产生智能,conv的叠加从resnet之后就讨论过,宽或者深都没有办法做到极限,大概sam这种思路是最好的实证。

1.introduction

引入了ViT adaptation策略和detail capture module。

2.Methodology

2.2 Overall architecture

给定一个RGB图像HXWX3以及其对应的trimap HXWX1,按通道连接它们并输入到ViTMatte中,ViT作为基础特征提取器,生成一个stride=16的单个特征图,detail capture模块由一系列卷积层组成,用于捕捉和融合图像matting中的详细信息,简单的在不同尺度上采样和融合特征,以预测最终的alpha。

2.3 Vision transformer adaptation

将普通VIT中的block分层m组G,每个组中包含n个transformer块,对于G中的块,我们仅在最后一个块bn中应用全局注意力,而在其他块中使用窗口注意力,而非全局注意力。在每组transformer块后面加入一个卷积块,并利用残差连结将每组的结果前馈,卷积块等于组数,采用ResBottleneck。

2.4 Detail capture module

已经加入一个轻量级的细节捕捉模块,以有效的捕捉更精细的细节,该模块包括一个卷积流和一个简单的融合策略。由一些列的3x3conv组成,每一层包括一个卷积层,核大小为3,批归一化和relu,双线性插值。

2.5 Training scheme

ViT初始权重(DINO和MAE的预训练权重初始化ViTMatte-S和ViTMatte-B),并随机初始化额外部分,输入通道是4个,而不是3个,随机裁剪512x512,在两个V100上训练了100个epoch,ViTMatte-B的bs为32,ViTMatte-S的bs为20.

3.experiments

相关推荐
ai_xiaogui2 分钟前
AIStarter:全网唯一跨平台桌面AI管理工具,支持Windows、Mac和Linux一键部署
linux·人工智能·macos·跨平台ai项目一键部署工具·comfyui模型库·高效管理2.19tb模型库·一键配置comfyui模型库
未来之窗软件服务9 分钟前
繁花深处:花店建设的时代意义与多元应用—仙盟创梦IDE
人工智能·小程序·仙盟创梦ide·东方仙盟
suke16 分钟前
前脚说为你好,后脚就把你“出卖”!“沉浸式翻译”上演史诗级“神操作”
人工智能·开源·产品
知了一笑1 小时前
AI编程:代码多,效果好?
人工智能·大模型·kimi·千问·deepseek
过往入尘土1 小时前
全面了解机器语言之kmeans
人工智能·机器学习·支持向量机
m0_677034351 小时前
机器学习-增加样本、精确率与召回率
人工智能·机器学习
乔公子搬砖1 小时前
计算机视觉全景指南:从OpenCV预处理到YOLOv8实战,解锁多模态AI时代(第五章)
人工智能·opencv·计算机视觉·ai·语言模型·大模型
WSSWWWSSW1 小时前
大语言模型提示工程与应用:ChatGPT提示工程技术指南
人工智能·python·语言模型·chatgpt·大模型
IMER SIMPLE1 小时前
人工智能-python-机器学习-决策树与集成学习:决策树分类与随机森林
人工智能·python·机器学习