构建视觉词典(visual vocabulary / codebook)

构建视觉词典就是把大量局部描述子(比如 ORB 的二进制描述子)聚成若干类"视觉单词"(visual words)。每个簇心代表一类相似的局部图像模式(比如"椅子腿的某种局部纹理")。之后把每张图像里出现的这些单词频率统计成一个定长向量(BoW histogram),用于训练分类器。

1. 整体流程(高层次步骤)

  1. 对训练集中每张图像用 ORB 提取描述子(descriptors)。

  2. 把所有图像的描述子合并成一个大集合(可能很大)。

  3. 对集合采样(必要时),然后对描述子做聚类(通常用 k-means)得到 K 个簇心(这就是视觉词典)。

  4. 对每张图像,把它的描述子映射到最近的簇心,统计每个簇心出现的次数 → 得到长度为 K 的直方图(BoW)。

  5. 对直方图做归一化 / TF-IDF / L2 标准化 等预处理,再送入分类器(SVM等)。

相关推荐
蓦然回首却已人去楼空1 分钟前
深度学习进阶:自然语言处理|4.1.2 QA|grads 列表与省略号 [...] 详解
人工智能·深度学习·自然语言处理
手写码匠4 分钟前
Android 17 适配实战指南:新特性解读、隐私变更与迁移全攻略
人工智能·深度学习·算法·aigc
YueJoy.AI12 分钟前
创业团队如何管理远程工作
人工智能·ai·语言模型
端平入洛15 分钟前
单个感知机为何无法解决异或问题?
人工智能·深度学习
卷卷说风控28 分钟前
【卷卷观察】Google I/O 炸场背后:AI 行业正在经历一场“越南战争“
人工智能
SLD_Allen35 分钟前
AI-Infra双轨战略:承托当下GPU算力,布局未来CPU替代
人工智能·gpu算力·ai-infra
wait38 分钟前
Vibe Coding 开发技巧
前端·javascript·人工智能
bloxed40 分钟前
【AI大模型--NumPy-06】随机数生成与蒙特卡洛模拟
人工智能·numpy
szxinmai主板定制专家41 分钟前
基于ZYNQ MPSOC图像采集与压缩系统总体设计方案
linux·arm开发·人工智能·嵌入式硬件·fpga开发
GOTXX1 小时前
SenseNova U1 实战体验:API 调用 + OpenClaw 接入全流程
服务器·网络·人工智能·语言模型