VLAD NETVLAD

VLAD:

先用sift对图像提取特征点并计算其描述子.对一张图像的n个d维的描述子进行聚类得到k个聚类中心,对每个类所包含的描述子减去聚类中心后求和得到一个向量,k个类别就得到k个d维向量,用这k个d维向量去表达一张图像

NETVLAD:

改进1: 用所有描述子对每一个聚类中心的差值求加权平均和.即对描述子到聚类中心的差值乘以一个权重再去求和.权重是所有描述子到聚类中心距离再做一个softmax得到的.

改进2: 引入卷积网络直接对一张图像提取这k个d维向量

网络: 一张图像经过卷积得到wxhxd的featuremap,用N表示wxh,然后网络分成两个分支,一个分支对N个d维向量计算出k个聚类中心.另一个分支去计算权重.计算完权重和聚类中心就可以减去聚类中心加权求和后得到一张图的kxd的向量表达.

计算N个描述子到K个聚类中心的权重,结果应该是Nxk的矩阵.计算权重的分支对wxhxd的fm用k个1x1卷积核卷积得wxh x k的fm,代表N个k维向量,每个k有N个向量,用每个k下的N个向量求softmax,得到描述子到每个聚类中心加权的权重.

总结:不再需要提取特征点即可得到一张图的向量表达,就没有特征点了.

参考:NetVLAD原理详解和推导-CSDN博客

NeXtVLAD:

对网络做了改进,加了残差连接和多尺度的网络结构(一层出来经过多个不同尺度的卷积核的结果再融合到一起)

参数量从netvlad的268MB降低到netxtvlad的 71MB

参考:NetVLAD系列代码串讲 - 知乎

用chatgpt总结一下:

本文讨论了图像特征提取和表达的相关技术,包括 SIFT、VLAD、NETVLAD 和 NeXtVLAD。关键要点包括:

  • VLAD:对图像的描述子进行聚类,得到聚类中心,然后对每个类所包含的描述子减去聚类中心后求和,用这 k 个 d 维向量去表达一张图像。

  • NETVLAD:对 VLAD 进行改进,用所有描述子对每一个聚类中心的差值求加权平均和,并引入卷积网络直接对一张图像提取这 k 个 d 维向量。

  • NeXtVLAD:对网络做了改进,加了残差连接和多尺度的网络结构,降低了参数量。

相关推荐
sp_fyf_202410 分钟前
【大语言模型】 揭秘OPD:大语言模型的长度膨胀与稳定化策略
人工智能·深度学习·神经网络·机器学习·语言模型
sp_fyf_202419 分钟前
【大语言模型】OpenVLThinkerV2:面向多领域视觉任务的通用型多模态推理模型
人工智能·深度学习·学习·语言模型·transformer
xiaoyaohou1120 分钟前
014、Neck结构改进(二):自适应空间特征金字塔(ASPP)的引入
深度学习·计算机视觉·cnn
__Wedream__23 分钟前
NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读
人工智能·深度学习·算法·计算机视觉·超分辨率重建
FL162386312927 分钟前
基于深度学习mediape实现人员跌倒人体姿势跌倒检测算法源码+说明文件
人工智能·深度学习·算法
春末的南方城市43 分钟前
CVPR 2026 | 复旦开源首个端到端多模态矢量动画生成框架OmniLottie:UI动效革命,文本/图像一键转Lottie动画!
人工智能·深度学习·机器学习·计算机视觉·aigc
_张一凡1 小时前
【文档解析】一文学懂百度千帆OCR模型细节及本地部署
深度学习·ocr·文档解析·千帆ocr·rag文档解析·qianfan-ocr
sp_fyf_20241 小时前
【大语言模型】从失败中学习:在微调大型语言模型作为智能体时整合负例
人工智能·深度学习·学习·机器学习·语言模型·自然语言处理
cyyt1 小时前
深度学习周报(4.6~4.12)
人工智能·深度学习
阿_旭2 小时前
基于YOLO26深度学习的骑行安全检测与语音提示系统【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·骑行安全检测