构建视觉词典(visual vocabulary / codebook)

构建视觉词典就是把大量局部描述子(比如 ORB 的二进制描述子)聚成若干类"视觉单词"(visual words)。每个簇心代表一类相似的局部图像模式(比如"椅子腿的某种局部纹理")。之后把每张图像里出现的这些单词频率统计成一个定长向量(BoW histogram),用于训练分类器。

1. 整体流程(高层次步骤)

  1. 对训练集中每张图像用 ORB 提取描述子(descriptors)。

  2. 把所有图像的描述子合并成一个大集合(可能很大)。

  3. 对集合采样(必要时),然后对描述子做聚类(通常用 k-means)得到 K 个簇心(这就是视觉词典)。

  4. 对每张图像,把它的描述子映射到最近的簇心,统计每个簇心出现的次数 → 得到长度为 K 的直方图(BoW)。

  5. 对直方图做归一化 / TF-IDF / L2 标准化 等预处理,再送入分类器(SVM等)。

相关推荐
哈哈,柳暗花明16 分钟前
人工智能专业术语详解(L)
人工智能·专业术语
莱歌数字23 分钟前
散热测试使用恒温热源和功率热源的应用场景分析
人工智能·科技·制造·散热·液冷散热
码农小白AI25 分钟前
AI报告审核通审Agent版搭载IACheck:锅炉压力容器电梯起重设备安装监检核查
人工智能
手写码匠26 分钟前
手写 GraphRAG:从零实现图增强检索增强生成系统
人工智能·深度学习·算法·aigc
沪漂阿龙26 分钟前
Chat Model:LangChain 如何统一调用不同大模型?
人工智能·langchain
庄周迷蝴蝶27 分钟前
Vision Banana
人工智能·计算机视觉
装不满的克莱因瓶31 分钟前
【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准
人工智能·pytorch·python·深度学习·学习·机器学习·自动驾驶
刚木32 分钟前
用 Agnes AI 免费模型增强 Claude Code:从零上手指南
人工智能
阿部多瑞 ABU37 分钟前
铁三角:泛二次元奶头乐经济的结构分析及其人口后果
大数据·人工智能
FL162386312941 分钟前
户外垃圾类型检测数据集VOC+YOLO格式4278张10类别
人工智能·yolo·机器学习