lmm

【IQA技术专题】基于多模态大模型的IQA Benchmark：Q-BENCH本文将围绕《Q-BENCH: A BENCHMARK FOR GENERAL-PURPOSE FOUNDATION MODELS ON LOW-LEVEL VISION》展开完整解析。为填补多模态大型语言模型（MLLMs）在低层次视觉感知与理解能力评估上的空白，研究团队提出Q-Bench 基准，从低层次视觉感知、低层次视觉描述、整体视觉质量评估三大维度系统评估 MLLMs 能力：构建含 2,990 张图像的LLVisionQA 数据集评估感知能力（通过问答正确性衡量），创建含 499 张图像及专家标注黄

swift使用代码结构解析多模态模型的训练llamafactory也可以训练，但是总的来说，llamafactory对多模态模型的支持还是不太多，ms-swift支持的多模态模型更多，因此有时候去找框架是否够支持相应的模型时会有所困难，所以对这些框架的代码也要稍微熟悉一些。

【多模态】39、HRVDA | 基于高分辨率输入的高效文档助手（CVPR2024）论文：HRVDA: High-Resolution Visual Document Assistant

codebat_raymond

用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件最近,大型语言模型(LLMs)在同时处理广泛的NLP任务的同时展示了令人印象深刻的推理和规划能力。因此,将它们与视觉模态集成,特别是用于视频理解任务,催生了视频大型多模态模型(Video-LMMs)。这些模型充当视觉聊天机器人,接受文本和视频作为输入,并处理各种任务,包括视频理解、详细的视频理解和行为定位。“视频理解” 通常指的是对视频内容的基本识别和理解，比如识别视频中的人物、场景和活动。这涵盖了对视频的一般性内容的理解。而"对视频内容的深入理解" 则是更深层次的，不仅仅是识别元素，还包括理解视频中的情

【LMM 010】MiniGPT-v2：使用独特的标识符实现视觉语言多任务学习的统一的多模态大模型论文标题：MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning 论文作者：Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny

llava1.5-部署新建weights文件夹，并下载到LLaVA/weights/中。->需要修改文件名为llava-版本，例如llava-v1.5-7b.

我是有底线的