小样本目标检测(Few-Shot Object Detection)综述

背景

  1. 前言:我的未来研究方向就是这个,所以会更新一系列的文章,就关于FSOD,如果有相同研究方向的同学欢迎沟通交流,我目前研一,希望能在研一发文,目前也有一些想法,但是具体能不能实现还要在做的过程中慢慢评估和实现.写文的主要目的还是记录,避免重复劳动,我想用尽量简洁的语言把问题的关键描述出来,这样在我需要复习的时候也能快速回忆工作

小样本目标检测 - Few-Shot Object Detection - FSOD

  1. 小样本目标检测,英文名Few-Shot Object Detection,简称FSOD,论文里面一般都这么写,只有标题会规规矩矩的写全称,其他时候一般都是简写
  2. 注意:在搜索小样本目标检测时候,往往会给到一些关于小目标目标检测的文章,这两就不是一回事,小样本目标检测的小样本不是值样本的size小,而是指样本数量少;小目标目标检测才是真正意义上的目标size小,要精准的对目标进行分类和定位,感兴趣的搜一搜,我看到一篇基于yolo做的小目标目标检测,写的挺好的.
  3. 长尾效应:小样本目标检测的来由 - 数据的分布具有长尾效应,少部分类别大量的数据,而很多类别只有少量数据,如何正确的对这些数据做目标检测就是小样本要考虑的问题.
  4. 目前研究方向:小样本目标检测,未来可能的研究方向:开放世界的目标检测、增量小样本目标检测、广义小样本目标检测 - 总结就是希望以后能实时监测动态的不断出现的新类同时保留对基类的检测能力(基类就是有大量样本的类,新类就是样本数量少的亟待预测的类)

FSOD的两种学习策略

  1. 基于任务驱动的episode策略:基于元学习的方法、基于度量学习的方法
  2. 基于数据驱动的策略 :基于迁移学习的方法,基于数据增强的方法
  3. 基于任务驱动的episode指的是小样本任务分成N-way K-shot的任务(N个类,每个类K个样本),任务包含支持集和查询集,代表就是元学习(分为元训练阶段和元测试阶段),希望能够在元训练阶段学得一组泛化能力极强的参数,最终快速适应至新的元测试阶段,掌握学会学习的能力 - 后面会纤细介绍到元学习 - 目前FSOD的主流学习方法之一
  4. 基于数据驱动的学习方法:代表就是迁移学习,通过大量的数据训练好一个模型,然后在回归和分类的层进行微调,使得模型适应新类的检测

FSOD四种学习策略

元学习

  1. 基础方法:两段检测模型Fast RCNN - 通过候选区域生成网络(Region Proposal Network, RPN)生成感兴趣区域边界框(Region of Interests, RoIs),判断是前景还是背景,然后采用RoI池化将大小不同的感兴趣区域边界框处理为相同大小,最后将获得的RoIs进行边界框的分类和回归.
  2. 元训练:模型在一系列不同的任务上进行训练,这些任务被称为元任务。在元训练过程中,模型不是为了在单个任务上表现最佳,而是为了学习一种策略或知识,使其能够在遇到新任务时快速适应。这通常涉及到优化模型的参数,使其能够在新任务上仅通过少量的训练样本进行有效的学习。
  3. 元测试:元测试是元学习过程的评估阶段,模型在这个阶段被测试在新的、未见过的任务上的性能。这些新任务被设计为与元训练阶段中的任务相似,但不完全相同,以此来评估模型的泛化能力和快速适应新任务的能力。元测试的结果可以提供关于模型在实际应用中遇到新问题时可能表现如何的重要信息。

迁移学习

  1. 这个比较好理解 - 在大量数据上训练出一个模型,然后微调分类层和输出层.比如用yolo冻住前面的层然后微调后面的层即可.感觉新手入门用这个比较好,我也是这么打算的

数据增强

  1. 小样本问题就在于样本数量少,通过数据增强的方式扩充数据量,提升模型预测性能

度量学习

  1. 这个是我比较感兴趣的,和transformer有共同知识,可以一起学,把图像映射到嵌入空间,然后根据在嵌入空间的距离判断类别.

总结

  1. 写到这显得优点虎头蛇尾,但是想要毕其功于一役是不太现实的,那这篇文章就聚焦于简单的介绍一下小样本目标检测的四种方法吧,后面随着学习的深入进行肯定会展开细说的,感觉没写什么就快2000字了,写不动了就先这样吧,后面在学习的过程中慢慢展开
  2. 读完之后只要知道,FSOD - 元学习、迁移学习、数据增强、度量学习就ok,根据自己的方向再去衍生
  3. 新手上路,欢迎交流讨论
  4. 这个事情一定要坚持写下去,半途而废好多专题,回想起来挺后悔的
相关推荐
Mintopia31 分钟前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia2 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区2 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两5 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪5 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232555 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
王鑫星5 小时前
SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码
人工智能