视觉大语言模型 - 视觉大语言模型技术,学习,经验文章

FesianXu

1 年前

视觉大语言模型未能充分利用视觉表征这两天看到一篇新挂在arxiv上的文章 [1]，讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱，并提出集成编码器方案以弥补不足，本文认为可能是底座LLM不能充分利用视觉编码器的特征，笔者觉得挺有意思的，就在此笔记，希望对读者有所帮助。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。