lmm

呆呆的猫20 天前
多模态·lmm
【多模态】39、HRVDA | 基于高分辨率输入的高效文档助手(CVPR2024)论文:HRVDA: High-Resolution Visual Document Assistant
codebat_raymond2 个月前
语言模型·音视频·多模态·lmm·推理·video-llm
用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件最近,大型语言模型(LLMs)在同时处理广泛的NLP任务的同时展示了令人印象深刻的推理和规划能力。因此,将它们与视觉模态集成,特别是用于视频理解任务,催生了视频大型多模态模型(Video-LMMs)。这些模型充当视觉聊天机器人,接受文本和视频作为输入,并处理各种任务,包括视频理解、详细的视频理解和行为定位。“视频理解” 通常指的是对视频内容的基本识别和理解,比如识别视频中的人物、场景和活动。这涵盖了对视频的一般性内容的理解。而"对视频内容的深入理解" 则是更深层次的,不仅仅是识别元素,还包括理解视频中的情
datamonday6 个月前
人工智能·gpt·llm·多模态·lmm
【LMM 010】MiniGPT-v2:使用独特的标识符实现视觉语言多任务学习的统一的多模态大模型论文标题:MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning 论文作者:Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
zhzxlcc9 个月前
lmm
llava1.5-部署新建weights文件夹,并下载到LLaVA/weights/中。->需要修改文件名为llava-版本,例如llava-v1.5-7b.