构建视觉词典(visual vocabulary / codebook)

构建视觉词典就是把大量局部描述子(比如 ORB 的二进制描述子)聚成若干类"视觉单词"(visual words)。每个簇心代表一类相似的局部图像模式(比如"椅子腿的某种局部纹理")。之后把每张图像里出现的这些单词频率统计成一个定长向量(BoW histogram),用于训练分类器。

1. 整体流程(高层次步骤)

  1. 对训练集中每张图像用 ORB 提取描述子(descriptors)。

  2. 把所有图像的描述子合并成一个大集合(可能很大)。

  3. 对集合采样(必要时),然后对描述子做聚类(通常用 k-means)得到 K 个簇心(这就是视觉词典)。

  4. 对每张图像,把它的描述子映射到最近的簇心,统计每个簇心出现的次数 → 得到长度为 K 的直方图(BoW)。

  5. 对直方图做归一化 / TF-IDF / L2 标准化 等预处理,再送入分类器(SVM等)。

相关推荐
木斯佳2 小时前
HarmonyOS 6实战:AI Action富媒体卡片迭代——实现快照分享
人工智能·harmonyos·媒体
芝士爱知识a2 小时前
2026高含金量写作类国际竞赛汇总与测评
大数据·人工智能·国际竞赛·写作类国际竞赛·写作类比赛推荐·cwa·国际写作比赛推荐
华农DrLai6 小时前
什么是LLM做推荐的三种范式?Prompt-based、Embedding-based、Fine-tuning深度解析
人工智能·深度学习·prompt·transformer·知识图谱·embedding
东北洗浴王子讲AI6 小时前
GPT-5.4辅助算法设计与优化:从理论到实践的系统方法
人工智能·gpt·算法·chatgpt
超低空6 小时前
OpenClaw Windows 安装详细教程
人工智能·程序员·ai编程
恋猫de小郭7 小时前
你的代理归我了:AI 大模型恶意中间人攻击,钱包都被转走了
前端·人工智能·ai编程
yongyoudayee7 小时前
2026 AI CRM选型大比拼:四大架构路线实测对比
人工智能·架构
高洁017 小时前
多模态AI模型融合难?核心问题与解决思路
人工智能·深度学习·机器学习·数据挖掘·transformer
碑 一8 小时前
视频分割Video K-Net
人工智能·计算机视觉
renhongxia18 小时前
ORACLE-SWE:量化Oracle 信息信号对SWE代理的贡献
人工智能·深度学习·学习·语言模型·分类