构建视觉词典(visual vocabulary / codebook)

构建视觉词典就是把大量局部描述子(比如 ORB 的二进制描述子)聚成若干类"视觉单词"(visual words)。每个簇心代表一类相似的局部图像模式(比如"椅子腿的某种局部纹理")。之后把每张图像里出现的这些单词频率统计成一个定长向量(BoW histogram),用于训练分类器。

1. 整体流程(高层次步骤)

  1. 对训练集中每张图像用 ORB 提取描述子(descriptors)。

  2. 把所有图像的描述子合并成一个大集合(可能很大)。

  3. 对集合采样(必要时),然后对描述子做聚类(通常用 k-means)得到 K 个簇心(这就是视觉词典)。

  4. 对每张图像,把它的描述子映射到最近的簇心,统计每个簇心出现的次数 → 得到长度为 K 的直方图(BoW)。

  5. 对直方图做归一化 / TF-IDF / L2 标准化 等预处理,再送入分类器(SVM等)。

相关推荐
PS12323235 分钟前
城市安全建设中的风环境监测解决方案
大数据·人工智能
梯度下降不了班36 分钟前
【mmodel/xDiT】多模态^_^从入门到放弃的学习路径
人工智能·学习·stable diffusion
说私域38 分钟前
基于开源AI大模型AI智能名片S2B2C商城小程序的爆品力构建:兴趣电商生态下的能力解构与实践路径
人工智能·小程序·开源
Ombré_mi39 分钟前
QLoRA微调原理详解
人工智能
阿杰学AI40 分钟前
AI核心知识31——大语言模型之Multimodal Understanding(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·embedding·多模态理解
子午40 分钟前
【交通标志识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
励志成为糕手40 分钟前
动手学CNN:图像处理的卷积神经网络实践指南
图像处理·人工智能·深度学习·计算机视觉·cnn
chatexcel43 分钟前
ChatExcel AI 表格功能详解:多模态数据自动抓取与智能结构化生成的实战效率提升
人工智能
木头左1 小时前
门控注意力单元与LSTM细胞状态更新的协同机制
人工智能·rnn·lstm