LLM2CLIP论文学习笔记:强大的语言模型解锁更丰富的视觉表征今天分享的一篇论文《LLM2CLIP: P OWERFUL L ANGUAGE M ODEL U NLOCKS R ICHER V ISUAL R EPRESENTATION》, 2024年9月微软和同济大学的一篇paper, 是多模态领域的一篇工作,主要探索了如何将大模型融合到Clip模型里面来进一步提高视觉表征的性能。在本文中,提出了一种新颖的方法LLM2CLIP,它利用LLMs的力量来解锁CLIP的潜力。通过对LLM在说明文空间内进行对比学习微调,将它的文本能力提取到输出embedding中,大大提