【文献阅读】Vision-Language Models for Vision Tasks: A Survey发表于2024年2月TPAMI大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖标注数据,并且通常为每个单一视觉识别任务训练一个DNN,这导致了一种费力且耗时的视觉识别范式。为应对这两个挑战,视觉语言模型(VLM)最近受到了广泛研究,它从互联网上几乎无限可用的网络规模图像文本对中学习丰富的视觉语言相关性,并能够使用单个VLM对各种视觉识别任务进行零样本预测。本文对用于各种视觉识别任务的视觉语言模型进行了系统综述,包括:(1)介绍视觉识别范式发展的背景;(2)VLM的基础,总结广泛采用的网络架构、预训