2024 TIP 论文 robust-ref-seg 复现过程

本篇是 2024 年 TIP 论文 Toward Robust Referring Image Segmentation 的复现过程。

特点是对不存在的目标不会进行错误分割,鲁棒性较高,其结果如图:

配置环境

根据论文给出的链接 robust-ref-seg 配置环境。

下载数据集

按照 README 指示,从 RefCOCO 下载数据集。

注意在 make 的时候会报错 Cannot assign type 'double' to 'siz',可以参考 issue#8 的内容,将 setup.py 中的 ext_modules=cythonize(ext_modules) 替换为 ext_modules=cythonize(ext_modules, language_level = "2")

然后在下载数据集,由于 README 提供的链接都挂掉了,可以参考 issue#14 里的回答进行下载。

下载模型

bert-base-uncased 模型下载以下文件。

uncased 表示是无关大小写的模型。

Swin-base 下载该模型:

然后按照 README 指示建立目录结构即可。

数据集结构

refcoco 数据集的结构为:

├── refcoco
│   ├── instances.json
│   ├── refs(google).p
│   └── refs(unc).p

其中,instances.json 是从 MS COCO 数据集中继承来的文件标注,refs(xxx).p 是 Python 序列化的 Pickle 格式二进制文件,包含 RefCOCO 数据集特有的语言描述及其目标信息。

instance.json 标注格式如下(仅作示例):

json 复制代码
{
    "info": {
        "description": "COCO 2014 Dataset",
        "url": "http://cocodataset.org",
        "version": "1.0",
        "year": 2014,
        "contributor": "COCO Consortium",
        "date_created": "2017/09/01"
    },
    "images": [
        {
            "license": 1,
            "file_name": "COCO_train2014_000000000094.jpg",
            "coco_url": "http://images.cocodataset.org/train2014/COCO_train2014_000000000094.jpg",
            "height": 427,
            "width": 640,
            "date_captured": "2013-11-17 02:07:37",
            "flickr_url": "http://farm7.staticflickr.com/6102/6339531433_a465b39852_z.jpg",
            "id": 94  // 图像 id
        }
    ],
    // 许可类别,这里只保留一个作为示例
    "licenses": [
        {
            "url": "http://creativecommons.org/licenses/by-nc-sa/2.0/",
            "id": 1,
            "name": "Attribution-NonCommercial-ShareAlike License"
        }
    ],
    "annotations": [
        {
	        // 用若干坐标围绕一个轮廓而成的多边形标注,如果目标有多个轮廓则用多个列表
            "segmentation": [
                [
                    317.98780487804873,
                    286.73780487804873,
                    315.7012195121951,
                    288.2621951219512,
                    316.0060975609756,
                    291.92073170731703,
                    320.2743902439024,
                    296.0365853658536,
                    264.56876456876455,
                    312.8205128205128,
                    264.56876456876455,
                    314.9184149184149,
                    284.1491841491841,
                    317.7156177156177,
                ]
            ],
            "area": 51754.216533564235,  // 多边形面积
            "iscrowd": 0,                // 是否是被遮挡区域
            "image_id": 94,
            // [x_min, y_min, w, h]
            "bbox": [
                134.26923076923077,
                425.2307692307692,
                639,
                286
            ],
            "category_id": 1,
            "id": 1                      // 注释id,后面和.p文件的ann_id联动
        }
    ],
    "categories": [
        {
            "supercategory": "animal",
            "id": 1,
            "name": "dog"
        }
    ]

}

json文件过大时 vs code 不能查看,很容易卡死。找到两个查看大 json 文件的软件。
HugeJsonViewer 免费,但查找功能有 bug。
dadroit 查看超过 50M 的文件需要付费。

另外也可以直接用 vim 打开大 json 文件,不过搜索时依然很卡很慢。

refs(xxx).p 则使用 Python 的 pickle 模块加载文件。

python 复制代码
import pickle

# 加载 refs(unc).p 文件
with open('refs(unc).p', 'rb') as f:
    data = pickle.load(f)

# 查看第一个引用表达
print(data[0])

其结构为:

json 复制代码
{
	'sent_ids': [
		0,
		1,
	],
	'file_name': 'COCO_train2014_000000581857_16.jpg',
	// 通过ann_id和image_id关联COCO中的图像
	'ann_id': 1719310,                   // COCO 数据集中对应的目标注释 ID
	'ref_id': 0,                         // 引用表达的唯一 ID
	'image_id': 581857,                  // 图像 ID
	'split': 'train',                    // 数据集划分(如 train、val、testA、testB)
	'sentences': [                       // 与目标关联的语言描述
	{
		'tokens': ['the', 'lady', 'with', 'the', 'blue', 'shirt'],  // 描述分词后的结果
		'raw': 'THE LADY WITH THE BLUE SHIRT',                      // 原始描述
		'sent_id': 0,
		'sent': 'the lady with the blue shirt'                      // 句子
	},
	{
		'tokens': ['lady', 'with', 'back', 'to', 'us'],
		'raw': 'lady w back to us',
		'sent_id': 1,
		'sent': 'lady with back to us'
	}
	],
	'category_id': 1                     // 目标类别 ID(如 "人")
	}
}

可以这样修改 refs(xxx).p 文件:

python 复制代码
## 修改描述
# 假设修改第一个引用表达的第一个描述
ref = data[0]
ref['sentences'][0]['raw'] = "the new description"
ref['sentences'][0]['tokens'] = ["the", "new", "description"]
# 确认修改
print(ref['sentences'][0])

## 添加新字段
# 给每个引用表达添加一个自定义字段
for ref in data:
    ref['custom_field'] = "custom_value"
# 检查修改
print(data[0]['custom_field'])

## 删除条目
# 删除某些引用表达
data = [ref for ref in data if ref['image_id'] != 57870]
# 检查剩余条目
print(len(data))

## 保存修改后数据
# 保存修改后的 .p 文件
with open('refs(unc)_modified.p', 'wb') as f:
    pickle.dump(data, f)

print("文件保存成功!")

复现

  • main.py 的 97 行中添加自己的数据集名 elif args.dataset in ['rrefcoco', 'rrefcoco+', 'rrefcocog', 'myref']:
  • main.py 的 142 行的 os.mkdir(logger_path) 修改为 os.makedirs(logger_path)

这是因为 mkdir() 在父目录也不存在时会创建失败,而 makedirs() 会递归地创建不存在的目录。

  • dataset/refer.py 的 51 行中添加自己的数据集名 if dataset in ['refcoco', 'refcoco+', 'refcocog', 'rrefcoco', 'rrefcoco+', 'rrefcocog', 'temp', 'myref']:
  • 把修改后的 instances.jsonrefs(unc).p 放到 /data/myref 里。

然后就可以开始测试自己的数据集了。

在测试自己的数据集时,运行到 validation.py 的 215 行 scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lambda step: (1 - step / (len(train_loader) * args.epoch)) ** 0.9) 时会报除 0 错误。

查看代码后发现是命令行运行时,args.type 参数默认为 val。在 main 函数里创建数据集 train_dataset 的参数 split 是 train,而创建 eval_dataset 的参数 split 会使用默认的 val。因此在制作自己的 refs.p 文件时,应该至少包含 split='train'split='val' 两种 ref 条目。

但其实,在 eval 模式时根本不需要 train_dataset,这是代码设计不合理的地方,可以把 main.py 的 209 行

python 复制代码
optimizer = AdamW(params=params_to_optimize, lr=args.lr, weight_decay=args.weight_decay)
scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lambda step: (1 - step / (len(train_loader) * args.epoch)) ** 0.9)

if args.eval:
	load_checkpoint(args, model_without_ddp, optimizer, scheduler, logger, args.ckpt_epoch, best=True)
	validate_all(args, model)
	exit(0)
if args.resume:

更改为:

python 复制代码
if args.eval:
	load_checkpoint(args, model_without_ddp, None, None, logger, args.ckpt_epoch, best=True)
	validate_all(args, model)
	exit(0)

optimizer = AdamW(params=params_to_optimize, lr=args.lr, weight_decay=args.weight_decay)
scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lambda step: (1 - step / (len(train_loader) * args.epoch)) ** 0.9)

if args.resume:

至此就可以对自己的数据集正常进行测试了。

相关推荐
youcans_3 天前
【YOLO 项目实战】(12)红外/可见光多模态目标检测
人工智能·yolo·目标检测·计算机视觉·多模态
AICurator3 天前
SAM2训练自己的数据集
深度学习·语义分割·sam2
深耕AI4 天前
Segment Anything论文详细翻译【Part2:引言Introduction】
图像分割·论文翻译·sam模型
好评笔记7 天前
多模态论文笔记——Coca
人工智能·深度学习·计算机视觉·aigc·transformer·多模态·coca
小嗷犬13 天前
【论文笔记】Visual Alignment Pre-training for Sign Language Translation
论文阅读·人工智能·机器翻译·多模态·手语翻译·手语识别
小任同学Alex13 天前
Lagent:从零搭建你的 Multi-Agent
人工智能·自然语言处理·大模型·大语言模型·多模态
小嗷犬15 天前
【论文笔记】Cross-lingual few-shot sign language recognition
论文阅读·人工智能·多模态·少样本·手语翻译
audyxiao00115 天前
AI一周重要会议和活动概览
人工智能·计算机视觉·数据挖掘·多模态
engchina16 天前
多模态抽取图片信息的 Prompt
prompt·多模态·抽取图片信息
KeepThinking!16 天前
YOLO-World:Real-Time Open-Vocabulary Object Detection
人工智能·yolo·目标检测·多模态