vlms

动手搭建Flamingo（VQA）Flamingo 旨在构建一个通用的多模态语言模型，解决传统视觉 - 语言模型在少样本学习和跨任务适应性上的局限性。传统模型通常需要针对特定任务（如图像描述、视觉问答）进行大量标注数据的微调，而 Flamingo 希望通过上下文学习能力，仅通过少量示例即可快速适应新任务，无需重新训练模型。

VLMs开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法目标检测作为计算机视觉领域的核心任务，传统方法依赖于 YOLO 等视觉模型对预定义类别进行位置预测。然而，此类方法受限于预训练类别体系，难以实现灵活的视觉交互。视觉语言模型（Vision-Language Models, VLMs）的问世打破了这一局限，其具备跨模态理解能力，能够实现图像与自然语言的双向交互，为目标检测领域带来范式革新。本文系统探讨基于 VLM 的目标检测技术，重点研究 Qwen2.5-VL 模型的技术特性与应用方法。

MCANet: 基于多模态字幕感知的大语言模型训练无关视频异常检测ICPR’24 - 印度卡利卡特国立理工学院 MCANet: Multimodal Caption Aware Training-Free Video Anomaly Detection via Large Language Model

我是有底线的