DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM论文解读感觉好久都没有写个一篇论文解读了,刚好此篇论文激发MLLM模型的检测能力。我也想一探究竟,因此我给出此篇论文的解读。我们提出了DetToolChain,这是一种新的提示范式,旨在释放多模态大语言模型(MLLMs),如GPT-4V和Gemini的零样本目标检测能力。我们的方法包含一个受高精度检测先验启发的检测提示工具包,以及一个新的思维链来实现这些提示。具体来说,工具包中的提示被设计用来引导MLLM关注区域信息(例如,放大),按照测量标准读取坐标(例如,叠加尺子和圆规),并从上下文信息中推断(例如,叠加场景