多模态-8 YOLO World

这篇文章介绍多模态模型-YOLO World

多模态基础知识介绍可以看:多模态-1 基础理论

Grounding DINO介绍可以看:多模态-7 Grounding DINO

CLIP介绍可以看:多模态-2 CLIP

YOLO World原论文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》

YOLO World类似Grounding DINO,也是解决开放集合目标检测的问题,但是使用的图像编码器是YOLO(具体是YOLO V8),相比于以往的开放集合目标检测模型更轻量,推理部署阶段可进一步配合重参数化的技巧提升推理速度,使YOLO World接近于原始YOLO的速度,消费级显卡上可达70+ FPS。

一 模型结构与训练

YOLO World整体结构如下:

输入依旧是<图像,文本>,但是相比于Grounding DINO,YOLO World输入的文本是类别名称列表,而Grounding DINO是任意格式的文本。

YOLO-World 更适合**"我知道要检测什么,只是模型没学过"的场景,而Grounding DINO 更适合"我用语言描述我想找的东西"**的场景。

将图片输入到YOLO的Backbone中进行图像特征提取,将类别文本输入到Text Encoder中进行文本编码特征提取(论文中使用的Text Encoder是CLIP),利用Vision-Language PAN进行图像特征、文本编码特征的语义对齐,将语义对齐后的特征输入到Text Contrastive Head、Box Head中得到预测类别和矩形框坐标输出,和真实标签计算损失反向梯度传播训练整个YOLO World。

1.1 Text Encoder

利用CLIP对输入的文本类别列表,如[cat,dog,apple],进行特征编码表示,得到[C,D]大小的编码表示矩阵,其中C是类别的个数、D是文本特征编码表示的嵌入向量维度。如果输入的是一整段的文本,则利用n-gram方法从文本中提取出文本类别列表,再进行特征编码表示,比如输入的是"a cat and a dog eat apple",需要借助n-gram方法从这段文本中提取出来要检测的类别名词,然后形成类别名称列表再输入到CLIP中进行特征编码表示。

1.2 Vision-Language PAN

1.3 训练

二 实验结果

相关推荐
羊小猪~~4 小时前
LLM--VIT简介
大模型·llm·nlp·多模态·多模态大模型·vit·ai算法
Flying pigs~~7 小时前
多模态RAG实战:从表格到音视频的全链路落地指南
自然语言处理·大模型·agent·多模态·rag·prompt提示词
xixixi777772 天前
微软推出 Critique 双模型协作系统:GPT + Claude 协同,开启“生成 + 审查”新范式
人工智能·安全·ai·微软·大模型·多模态·合规
袋鼠云数栈5 天前
集团数字化统战实战:统一数据门户与全业态监管体系构建
大数据·数据结构·人工智能·多模态
xx_xxxxx_8 天前
常见多模态架构CLIP/BLIP/Llava/CogVLM
人工智能·深度学习·机器学习·transformer·多模态
xixixi777779 天前
安全嵌入全链路:从模型训练到智能体交互,通信网络是AI安全的“地基”
人工智能·安全·ai·多模态·数据·通信·合规
余俊晖10 天前
多模态文档解析新思路:MinerU-Diffusion通过扩散解码进行文档OCR
人工智能·ocr·多模态
Struart_R10 天前
StreamVGGT、Stream3R、InfiniteVGGT论文解读
人工智能·计算机视觉·3d·视频·多模态
Struart_R12 天前
PAGE-4D、4RC、Track4World论文解读
计算机视觉·多模态·三维重建
千桐科技12 天前
qKnow 知识平台开源版 v1.1.1 发布:多模态知识获取新一步,新增 .docx 解析、重构并发引擎、确立 PR 规范
ai·知识图谱·开源软件·多模态·非结构化数据·qknow·知识平台