VLM细粒度识别新范式!快慢思考赋能、无需训练、不建样本库!让CLIP细粒度识别精度暴涨15个点

细粒度识别准确率低?完整原文见链接:如何提升 VLM 的细粒度识别能力呢?

视觉语言模型在图像描述、图文检索等任务中展现了强大的通用视觉识别能力。但当面对"苹果手机"与"三星手机"这类细微差异时,它的回答可能就不那么靠谱了。

以业界标杆CLIP为例,其表现揭示了一个惊人反差:在CIFAR10粗粒度数据集上达到90%准确率,而在CUB-200鸟类细粒度数据集上骤降至仅50%。即使是专攻细粒度的SigLIP,在CUB-200上的表现也止步于70%左右。

更深入的分析揭示了一个关键发现:虽然这些模型的Top-1准确率不尽如人意,但它们的Top-10准确率却能突破90%。这意味着VLM能够圈定正确范围,却难以在相似选项中做出最终抉择。

那如果把模型换成你,你会怎么处理?人类通常不会直接给出答案,而是经历一个自然的认知过程:首先是快速筛查,先确定这大概是某种鸟,然后再精细观察"喙的形状、羽毛纹路",通过细微特征的比对做出最终判断。

这一过程恰好对应认知科学中的"双系统理论":系统1:直觉快速,基于经验快速反应,但容易出错,系统2:深思熟虑,通过逻辑分析做出精准判断,但需要时间。

而当前VLM的表现完美对应了"系统1"的特征:能够快速识别出合理的候选类别子集,却缺乏"系统2"的精细辨别能力,导致在相似类别间频繁出错。

来自四川大学与南洋理工大学的研究团队提出了一种无需训练、不依赖标注数据或是参考样本、在推理时即插即用的 VLM 增强方法,从而补上精细思考模块,实现从大致正确到精确识别的跨越。

论文及源码可查看原文:VLM细粒度识别新范式!

相关推荐
多年小白几秒前
今日A股 拉
大数据·人工智能·深度学习·microsoft·ai
wujian8311几秒前
怎么把Kimi里的表格完整复制到wps内
人工智能·ai·wps·豆包·deepseek·ai导出鸭
Joy T1 分钟前
【碳金融】欧盟CBAM逻辑与“磐石·禹衡”系统的技术对冲分析
人工智能·重构·cbam·碳排放·碳核算·磐石
字节高级特工2 分钟前
C++11(一) 革新:右值引用与移动语义
java·开发语言·c++·人工智能·后端
DO_Community3 分钟前
Token聚合平台 vs 传统云 vs AI原生云,AI推理应用怎么选?
人工智能·agent·token·ai-native·deepseek
码农小旋风4 分钟前
2026最新国内用户Claude Code 开发配置详细手册
人工智能·chatgpt·claude
byte轻骑兵6 分钟前
【LE Audio】CAP精讲[9]:全流程操盘手,解锁CAP核心交互工序
人工智能·音视频·人机交互·le audio·音视频控制
AI科技星7 分钟前
强哥德巴赫猜想(1+1)终极证明(2026 年5月 21 日)
开发语言·人工智能·算法·计算机视觉·量子计算
枫叶林FYL7 分钟前
【强化学习】5 异构机器人数据集的跨具身离线强化学习:形态感知分组与梯度冲突消解
人工智能·系统架构·机器人
Rubin智造社9 分钟前
Claude Code开发者大会系列8:从脚本到智能体——独立开发者的“AI原生”工作流转型
数据库·人工智能·独立开发者·agentic工作流·ai原生开发·实操指南