构建视觉词典(visual vocabulary / codebook)

构建视觉词典就是把大量局部描述子(比如 ORB 的二进制描述子)聚成若干类"视觉单词"(visual words)。每个簇心代表一类相似的局部图像模式(比如"椅子腿的某种局部纹理")。之后把每张图像里出现的这些单词频率统计成一个定长向量(BoW histogram),用于训练分类器。

1. 整体流程(高层次步骤)

  1. 对训练集中每张图像用 ORB 提取描述子(descriptors)。

  2. 把所有图像的描述子合并成一个大集合(可能很大)。

  3. 对集合采样(必要时),然后对描述子做聚类(通常用 k-means)得到 K 个簇心(这就是视觉词典)。

  4. 对每张图像,把它的描述子映射到最近的簇心,统计每个簇心出现的次数 → 得到长度为 K 的直方图(BoW)。

  5. 对直方图做归一化 / TF-IDF / L2 标准化 等预处理,再送入分类器(SVM等)。

相关推荐
夏同学Xavi7 分钟前
skls-mgr:统一管理 Agent Skills 的 CLI 工具
人工智能·程序员·命令行
天青色等烟雨0911 分钟前
Skill的终局:不是被生成,而是能进化
人工智能·agent
FPGA-ADDA14 分钟前
第四篇:嵌入式系统常用通信接口详解(I2C、SPI、UART、RS232/485、CAN、USB)
人工智能·单片机·嵌入式硬件·fpga开发·信息与通信
智算菩萨18 分钟前
【How Far Are We From AGI】7 AGI的七重奏——从实验室到现实世界的应用图景与文明展望
论文阅读·人工智能·ai·agi·感知
一招定胜负27 分钟前
从 TXT 到 CSV 再到 Flask 部署:语音转写 AI 总结全流程实战
人工智能
数字供应链安全产品选型37 分钟前
#AI原生安全,Gartner 点名之后:AIST 技术正在进入深水区
大数据·人工智能
liukuang11038 分钟前
阿里Q3财报:全栈AI驱动下的价值重构
人工智能·重构
landuochong2001 小时前
claude增加自动化日历提醒功能,并同步到iphone日历
人工智能·iphone·claudecode
lcj09246661 小时前
机房U位资产智能化管理解决方案:破解传统运维痛点
人工智能
正宗咸豆花1 小时前
端到端AI决策架构如何重塑实时协作体验?
人工智能·架构