论文阅读——Painter

Images Speak in Images: A Generalist Painter for In-Context Visual Learning

GitHub - baaivision/Painter: Painter & SegGPT Series: Vision Foundation Models from BAAI

可以做什么:

输入和输出都是图片,并且不同人物输出的图片格式相同,输入输出图片格式都是H×W ×3,具体大概是原始label像素值重新定义在了三个通道上。语义分割部分如下:

原文:

训练时,输入是同一任务的两对图片concatenation,每对图片是原始图片和相应的任务输出图片,即GT。对于第二张图片即输出图片GT做了随机掩码,比例75%,重建遮挡的这部分,这部分训练时用一个可学习的向量代替被遮挡的patch。然后送入Vit-L,24blosks。从这些blocks中随机选4个特征图concatenation,送入一个三层的head(1x1卷积,3x3卷积,1个线性层)把每个patch还原为原来大小,16x16x3。

由于输入两对图片concatenation,所以计算量大,所以作者降低计算量的办法是输入图片和输出图片分别平行的送入模型,然后三个blocks后相对应的patch相加。节省一半计算开销。

损失函数smooth-l1

任务提示,作者给了两种基线办法:从训练集里面选好的,和生成一个可学习的。

其他实验结果:

相关推荐
天地之于壹炁兮11 分钟前
用VSCode打造高效AI开发环境:从配置到实战
ide·人工智能·vscode
孤狼warrior16 分钟前
我想拥有作家的思想 循环神经网络及变型
人工智能·rnn·深度学习·神经网络·lstm
极客BIM工作室30 分钟前
BERT模型中词汇表向量与网络权重:从属关系与不可替代的功能分工
人工智能·自然语言处理·bert
八年。。30 分钟前
Ai笔记(二)-PyTorch 中各类数据类型(numpy array、list、FloatTensor、LongTensor、Tensor)的区别
人工智能·pytorch·笔记
百***688243 分钟前
开源模型应用落地-工具使用篇-Spring AI-Function Call(八)
人工智能·spring·开源
许泽宇的技术分享44 分钟前
从零到一,开源大模型的“民主化“之路:一份让AI触手可及的实战宝典
人工智能·开源·大模型
文慧的科技江湖1 小时前
开源 | 企业级开源人工智能训练推理平台 - GPU池化平台 - GPU算力平台 - GPU调度平台 - AI人工智能操作系统
人工智能·开源·gpu池化·推理平台·训练平台·gpu管理平台·ai人工智能操作系统
东皇太星1 小时前
VGGNet (2014)(卷积神经网络)
人工智能·神经网络·cnn·卷积神经网络
Dev7z1 小时前
智能情感识别:基于USB摄像头和深度学习的实时面部表情分析系统
人工智能·深度学习
IT_陈寒1 小时前
JavaScript 闭包通关指南:从作用域链到内存管理的8个核心知识点
前端·人工智能·后端