1. BaseInfo
Title | GRES: Generalized Referring Expression Segmentation |
Adress | https://arxiv.org/pdf/2306.00968 |
Journal/Time | CVPR2023 |
Author | 南洋理工 |
Code | https://github.com/henghuiding/ReLA |
Read | 20240829 |
Table | VisonLanguage |
2. Creative Q&A
- 考虑结果多目标和无目标,基于 Mask2Former,能够指向任意数量的目标类别
- 数据集 gRefCOCO 构建,包含单目标、多目标和无目标。
- ReLA
3. Concrete
主要是多目标和无目标的改进。
prediction : 图像、文本、GT Mask、预测结果、有无目标。
python
out = {
'pred_logits': predictions_class[-1], # [B, Q, num_classes + 1]
'pred_masks': tgt_mask, # [ B, num_classes + 1, H/4, W/4]
'all_masks': outputs_mask,
'nt_label': nt_label # [B, 2]
}
3.1. Model
将视觉和语言特征输入 ReLA 模块。
3.1.1. Input
图片+文本
3.1.2. Backbone
Swin-Transformer + BERT
3.1.3. Neck
3.1.4. Decoder
在 RelA 后就是很简单的 MLP
3.1.5. Loss
交叉熵损失
3.2. Training
3.2.1 Dataset
RefCOCO
RefCOCO+
G-Ref
gRefCOCO
3.3. Eval
cumulative IoU (cIoU) and Precision@X (Pr@X), we further introduce No-target accuracy (N-acc.), Target accuracy (T-acc.), and generalized IoU (gIoU) for GRES.
- 在 gRefCOCO 上的
3.4. Ablation
- 数据集的必要性
- RIA 和 RLA 的必要性
- P 的数量 10 最佳
4. Reference
RES 系列 GRES: Generalized Referring Expression Segmentation 论文阅读笔记
5. Additional
有点吃显存。
简单读一下,后面 ReLA 还是没怎么看懂。后面再结合代码读的时候再详细写吧...