VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling近年来,语言建模领域取得了令人瞩目的进展。许多大型语言模型(LLM)(如Llama或ChatGPT)如今已能解决种类繁多的任务,其应用正日益普及。这些原本主要局限于文本输入的模型,现已扩展至具备视觉输入能力。将视觉与语言相连将解锁众多应用,而这些应用正是当前基于人工智能的技术革命之关键。尽管已有若干工作将大型语言模型扩展至视觉领域,但语言与视觉的连接问题尚未得到彻底解决。例如,若无依赖额外数据标注的复杂工程辅助,大多数模型在理解空间关系或计数方面仍显吃力。许多视觉语言模型(VLM)也缺乏对属性和顺序的理解