笔记:场景图生成综述(Scene Understanding)

论文源:https://doi.org/10.1016/j.neucom.2023.127052

期刊名:nuerocomputing 计算机科学二区


注:标题号不对应文内章节号


目录

注:标题号不对应文内章节号

[1. 论文标题:](#1. 论文标题:)

[2. 关键词(Keywords)](#2. 关键词(Keywords))

[3. 摘要](#3. 摘要)

4.引言

[5. Scene Graph 定义](#5. Scene Graph 定义)

[6. 场景图生成](#6. 场景图生成)

7.其他内容简述


1. 论文标题:

Scene Graph Generation: A Comprehensive Survey

场景图生成:一篇系统性综述

**2.**关键词(Keywords)

  • Scene Graph Generation(场景图生成)
  • Visual Relationship Detection(视觉关系检测)
  • Object Detection(目标检测)
  • Scene Understanding(场景理解)

3. 摘要

近年来,深度学习技术在物体检测领域取得重大突破,并催生了大量场景理解任务。场景图因其强大的语义表征能力和在场景理解中的应用价值,成为研究热点。场景图生成(SGG)是指将图像或视频自动映射为语义结构化场景图的任务,该过程需要对检测到的物体及其关系进行正确标注。本文对近期研究成果进行了全面综述,旨在系统梳理现有视觉关系检测方法,综合阐释 SGG 的机制与策略。最后,文章对当前存在的问题及未来研究方向进行了深入探讨。通过本综述,读者将能更全面地理解当前研究进展。

重点:

  • SGG:把图像/视频 → 语义结构化场景图

  • 需要:正确识别 物体 + 关系

  • 本文目标:

    • 系统整理视觉关系检测(VRD)方法

    • 机制与策略层面解释 SGG

    • 讨论问题与未来方向

4.引言

Scene Understanding 问题的演化可简述为:

  • Image Classification → Detection → Segmentation → Panoptic

但这些都只关心:"物体是什么/在哪"

真正对于环境理解需要:

  • 物体间交互、环境和物体的关系
    因此出现了:

  • VRD(视觉关系检测)

  • HOI(人与物体交互)

Scene Graph(场景图),这里的"图"是数据结构意义上的图 = 对象节点 + 属性 + 关系边

是一种:

  • 结构化
  • 可组合
  • 可与语言对齐的表示

应用驱动(Fig.1)

  • Image Captioning

  • VQA

  • Image Retrieval

  • Image Generation

  • Referring Expression

此文贡献:

  • 138 篇 SGG 文献的系统综述

  • 以"特征表示 + 特征精炼"为主线的 2D SGG 分析

  • 覆盖 2D / 时空 / 3D SGG + 数据集与评测

5. Scene Graph 定义

要素:

  • Object(物体)

  • Attribute(属性)

  • Relation(关系)

  • Triplet 形式:

    • ⟨subject, predicate, object⟩

    • ⟨object, is, attribute⟩

图结构视角:

  • 本质是有向图

  • 实际使用中:

    • 节点 = 带属性的物体

    • 边 = 关系

Scene Graph vs Knowledge Graph

  • KG:抽象、稳定、跨场景

  • Scene Graph:图像特定、瞬时、视觉依赖

关键观点:理想的 scene graph 在给定场景下是唯一的
2D / 3D / 时序 Scene Graph

  • 2D:有视角歧义

  • 3D:消除空间歧义

  • Video:关系随时间变化 → 时空场景图

6. 场景图生成

总览:

  • SGG ≠ 单纯关系分类

  • 核心在于:关系预测之前的特征构造与特征精炼

  • 方法创新 集中在 (b)(c)

  • (a)(d) 属于前置条件与输出端

(a) Object Detection(前置模块,不是研究重点)

  • 使用 Faster R-CNN / RPN

  • 产生:

    • subject box

    • object box

    • predicate ROI = subject ∪ object

  • 多数工作:

    • 直接用现成 detector

    • 或用 GT box(排除检测误差)

  • 结论:

    • 检测质量重要

    • 但不是 SGG 方法分类依据

(b) Feature Representation(特征表示)

核心问题:

  • Union box 的 appearance 特征不足以判别关系

  • 关系 = 多信息联合判断

多模态特征:

  • Appearance:解决"看起来像什么"

  • Semantic:解决"是什么东西"

  • Spatial:解决"相对位置"

  • Context:缩小可行语义空间

Prior Information(先验信息)

  • Statistical Prior

    • 数据集共现频率
  • Language Prior

    • 词向量 / 语义相似度

Commonsense Knowledge(常识知识)

  • Source:知识来源

    • 数据集统计 / 外部知识库(ConceptNet, Wiki)
  • Formulation:建模方式

    • 共现矩阵 / 图结构 / 概率约束
  • Usage:使用位置

    • 特征精炼 / 推理阶段 / 训练约束

(c) Feature Refinement(特征精炼)

核心部分

总体目标

  • 引入上下文

  • 保证关系预测的结构一致性与语义合理性

Message Passing(消息传递)

核心思想

  • 关系不是孤立的

  • 对象 / 关系之间存在依赖

两级传播

  • 局部(Triplet 内)

    • S ↔ P ↔ O
  • 全局(Scene Graph)

    • object ↔ object ↔ relation

常见结构

  • Chain:RNN / LSTM

  • Tree:TreeLSTM(VCTree)

  • Graph:GNN / CRF

Attention Mechanism(注意力机制)

作用

  • 选择性利用信息

  • 抑制无关上下文

两类

  • Self-Attention

    • 强化单个对象/关系表征
  • Context-Aware Attention

    • 从图结构中选择关键邻居

Visual Translation Embedding(视觉平移嵌入)

动机

  • 同一 predicate 在不同对象间差异巨大

  • Zero-shot / long-tail 问题

两种形式

  • 不显式建模 predicate embedding

  • 显式建模 ⟨S, P, O⟩ 共同嵌入

(d) Relation Prediction(关系预测)

  • 使用分类器输出 predicate

  • 生成 ⟨s, r, o⟩ triplets

7.其他内容简述

  • Section 4:数据集汇总

  • Section 5:性能对比与评测指标

  • Section 6:开放问题与未来方向

  • Section 7:总结

相关推荐
AI视觉网奇2 小时前
PlayerStreaming 驱动audio2face 学习笔记
笔记·学习·ue5
swan4162 小时前
SCAU期末笔记 - 计算机网络题库解析
笔记·计算机网络
这儿有一堆花2 小时前
从文本到像素:AI图像生成的底层逻辑解析
人工智能·机器学习·计算机视觉
week_泽2 小时前
第3课:构建AI代理系统面临的挑战 - 学习笔记_3
人工智能·笔记·学习·ai agent
week_泽2 小时前
第8课:LangGraph Memory管理机制与实现方案 - 学习笔记_8
java·笔记·学习·ai agent
南屿欣风2 小时前
Spring Cloud Gateway 路由表配置
笔记
AI即插即用2 小时前
超分辨率重建 | 2025 FIWHN:轻量级超分辨率 SOTA!基于“宽残差”与 Transformer 混合架构的高效网络(代码实践)
图像处理·人工智能·深度学习·计算机视觉·transformer·超分辨率重建
这张生成的图像能检测吗2 小时前
(论文速读)Set Transformer: 一种基于注意的置换不变神经网络框架
人工智能·深度学习·神经网络·计算机视觉·transformer