论文阅读——Pyramid Grafting Network for One-Stage High Resolution Saliency Detection

醋酸洋红就是我2023-10-05 9:09

目录

基本信息
标题
目前存在的问题
改进
网络结构
CMGM模块
解答
- 为什么要用这两个编码器进行编码
另一个写的好的参考

基本信息

期刊	CVPR
年份	2022
论文地址	https://arxiv.org/pdf/2204.05041.pdf
代码地址	https://github.com/iCVTEAM/PGNet

标题

金字塔嫁接网络的一级高分辨率显著性检测

目前存在的问题

cosod用于低分辨率图片下表现良好，高分辨率下(1080p、2K、4K)分割结果不完整，许多细节区域丢失。随着输入分辨率的急剧增加，所提取特征的大小也随之增大，但由网络决定的感受野是固定的，使得相对感受野较小，最终导致无法捕获对SOD任务至关重要的全局语义。
高分辨率下目前的两种方法HRSOD，DHQSOD都将SOD划分语义(低分辨率)阶段和详细(高分辨率)阶段，导致2个问题(1)阶段之间的语境语义迁移不一致。将前一阶段得到的中间映射输入到后一阶段，同时传递误差。此外，由于没有足够的语义支持，最后阶段的细化可能会继承甚至放大之前的错误，这意味着最终的显著性映射严重依赖于低分辨率网络的性能。(2)耗时。与单阶段方法相比，多阶段方法不仅难以并行化，而且存在参数数量增加的潜在问题，使其速度较慢。

改进

PGNet框架使用交错连接来捕获连续语义和丰富的细节
引入了跨模型的嫁接模块，将信息从transformer分支转移到CNN分支，这样CNN不仅可以继承全局信息，还可以弥补两者共有的缺陷。此外，我们还设计了注意引导丢失算法来进一步促进特征嫁接。
提供了一个新的具有挑战性的超高分辨率显著性检测数据集(UHRSD)，包含了5,920张不同场景的图像，分辨率超过4K，并相应的像素显著性标注

网络结构

CMGM模块

解答

为什么要用这两个编码器进行编码

选择Swin transformer和Resnet-18作为编码器。这种组合的选择是为了平衡效率和效果。一方面，transformer编码器可以在低分辨率的情况下获得准确的全局语义信息，卷积编码器可以在高分辨率的输入下获得丰富的细节。另一方面，不同模型提取的特征的可变性可能是互补的，以更准确地识别显著性

另一个写的好的参考

上一篇：代码随想录算法训练营第44天|动态规划：完全背包理论基础、518.零钱兑换II、377. 组合总和 Ⅳ

下一篇：3126: 【C2】【结构体】小明做调查

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 092026开年大模型最新对比解析及场景落地指南 102026 年 AI 大模型 & AI 编程工具实战全总结