ViTMatte:Boosting image matting with pretrained plain vision transformers

自sora之后,我也要多思考,transformer的scaling law在各个子领域中是不是真的会产生智能,conv的叠加从resnet之后就讨论过,宽或者深都没有办法做到极限,大概sam这种思路是最好的实证。

1.introduction

引入了ViT adaptation策略和detail capture module。

2.Methodology

2.2 Overall architecture

给定一个RGB图像HXWX3以及其对应的trimap HXWX1,按通道连接它们并输入到ViTMatte中,ViT作为基础特征提取器,生成一个stride=16的单个特征图,detail capture模块由一系列卷积层组成,用于捕捉和融合图像matting中的详细信息,简单的在不同尺度上采样和融合特征,以预测最终的alpha。

2.3 Vision transformer adaptation

将普通VIT中的block分层m组G,每个组中包含n个transformer块,对于G中的块,我们仅在最后一个块bn中应用全局注意力,而在其他块中使用窗口注意力,而非全局注意力。在每组transformer块后面加入一个卷积块,并利用残差连结将每组的结果前馈,卷积块等于组数,采用ResBottleneck。

2.4 Detail capture module

已经加入一个轻量级的细节捕捉模块,以有效的捕捉更精细的细节,该模块包括一个卷积流和一个简单的融合策略。由一些列的3x3conv组成,每一层包括一个卷积层,核大小为3,批归一化和relu,双线性插值。

2.5 Training scheme

ViT初始权重(DINO和MAE的预训练权重初始化ViTMatte-S和ViTMatte-B),并随机初始化额外部分,输入通道是4个,而不是3个,随机裁剪512x512,在两个V100上训练了100个epoch,ViTMatte-B的bs为32,ViTMatte-S的bs为20.

3.experiments

相关推荐
Yao.Li8 分钟前
Dify 本地环境忘记登录密码问题排障文档
人工智能·python
RD_daoyi9 分钟前
谷歌SEO新手入门:以SEO为主、GEO为辅,精准打造高转化内容与用户人群
大数据·人工智能·爬虫·搜索引擎
用户987456799535910 分钟前
#给 AnythingLLM 实现本地文件夹自动同步
人工智能
米花丶12 分钟前
同样的 while(true),不同的工程深度:Claude Code 源码中的 Agent 设计启示
人工智能·claude
liliangcsdn16 分钟前
对基于Pydantic BaseModel的实例进行JSON序列化
人工智能·json·全文检索
TDengine (老段)20 分钟前
TDengine IDMP 工业数据建模 —— 元素与数据查询
大数据·数据库·人工智能·物联网·时序数据库·tdengine·涛思数据
志栋智能25 分钟前
轻量级部署:低成本实现混合云环境自动化巡检
运维·网络·人工智能·自动化
点云SLAM32 分钟前
Qt+PCL手把手教材(第11讲)——PCL库PCLVisualizer点云可视化以及与 VTK 交互器(Interactor)详解和代码示例
人工智能·交互·3d数据可视化·pcl点云库·qt+pcl·pclvisualizer使用·vkt
码与农35 分钟前
硬件控制器是如何实现与ros2_control交互的
人工智能·机器人·自动驾驶
搬砖者(视觉算法工程师)40 分钟前
世界动作模型(WAM)的泛化能力是否优于视觉语言动作模型(VLA)?
人工智能