论文笔记:Vision GNN: An Image is Worth Graph of Nodes

neurips 2022

首次将图神经网络用于视觉任务,同时能取得很好的效果

1 方法

2 架构

  • 在计算机视觉领域,常用的 transformer 通常是 isotropic 的架构(如 ViT),而 CNN 更喜欢使用 pyramid 架构(如 ResNet)
  • 论文两种ViG架构都设置了
    • isotropic 架构------主体在整个网络中具有大小和形状相同的特征
    • Pyramid架构------层越深提取空间尺寸越小的特征

3 实验

图片分类任务:

相关推荐
nenchoumi31198 小时前
VLA 论文精读(十八)π0.5: a Vision-Language-Action Model with Open-World Generalization
论文阅读·人工智能·深度学习·语言模型·vla
江左子固1 天前
《Deep Learning Inference on Embedded Devices: Fixed-Point vs Posit》(一)
论文阅读
nenchoumi31191 天前
LLM 论文精读(二)Training Compute-Optimal Large Language Models
论文阅读·人工智能·笔记·学习·语言模型·自然语言处理
爱补鱼的猫猫1 天前
20、 DeepSeekMoE论文笔记
论文阅读·deepseekmoe
李一帆'1 天前
【论文阅读】Dual-branch Cross-Patch Attention Learning for Group Affect Recognition
论文阅读
初级炼丹师(爱说实话版)2 天前
Representation Flow for Action Recognition论文笔记
论文阅读
CV-杨帆2 天前
论文阅读:2025 arxiv AI Alignment: A Comprehensive Survey
论文阅读·人工智能
黄雪超2 天前
Flink介绍——实时计算核心论文之Dataflow论文详解
大数据·论文阅读·flink
王上上2 天前
【论文阅读24】并行 TCN-LSTM(2024-02)
论文阅读·人工智能·lstm·tcn
nenchoumi31193 天前
VLA论文精读(十四)PointVLA: Injecting the 3D World into Vision-Language-Action Models
论文阅读·笔记·学习·vla