深度学习·GFSS

ccLianLian2025-08-20 7:08

GFSS General Few-Shot Segmentation

任务实现方式与zero-shot有所不同
本篇论文只涉及同一个模态 (图像)，训练过程中，novel class有几个图像提供，提供k个就称之为k-shot。
先从图像中提取class prototype ，然后这个原型向量作为查询，与图像的patch嵌入计算相似度，然后得到最后的掩码矩阵。

RD

先对patch嵌入和原型作逐元素乘法，然后赋予其特定权重。权重就是二者的相似度分数。
从VIT中提取多个patch嵌入，拼接在一起，经过线性层作为key，value。
拼接多个VIT layer的RD和类别原型向量，经过线性层作为query。

局限

依赖ViT单模态能力、计算成本高、对小样本噪声敏感。

上一篇：大数据毕业设计选题推荐：基于Hadoop+Spark的城镇居民食品消费分析系统源码

下一篇：微信小程序实现蓝牙开启自动播放BGM

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）06Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 07OpenClaw优化飞书API 额度已耗尽问题 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程