lmm

Kun Li2 个月前
lmm·多模态大语言模型
swift使用代码结构解析多模态模型的训练llamafactory也可以训练,但是总的来说,llamafactory对多模态模型的支持还是不太多,ms-swift支持的多模态模型更多,因此有时候去找框架是否够支持相应的模型时会有所困难,所以对这些框架的代码也要稍微熟悉一些。
呆呆的猫6 个月前
多模态·lmm
【多模态】39、HRVDA | 基于高分辨率输入的高效文档助手(CVPR2024)论文:HRVDA: High-Resolution Visual Document Assistant
codebat_raymond7 个月前
语言模型·音视频·多模态·lmm·推理·video-llm
用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件最近,大型语言模型(LLMs)在同时处理广泛的NLP任务的同时展示了令人印象深刻的推理和规划能力。因此,将它们与视觉模态集成,特别是用于视频理解任务,催生了视频大型多模态模型(Video-LMMs)。这些模型充当视觉聊天机器人,接受文本和视频作为输入,并处理各种任务,包括视频理解、详细的视频理解和行为定位。“视频理解” 通常指的是对视频内容的基本识别和理解,比如识别视频中的人物、场景和活动。这涵盖了对视频的一般性内容的理解。而"对视频内容的深入理解" 则是更深层次的,不仅仅是识别元素,还包括理解视频中的情
datamonday1 年前
人工智能·gpt·llm·多模态·lmm
【LMM 010】MiniGPT-v2:使用独特的标识符实现视觉语言多任务学习的统一的多模态大模型论文标题:MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning 论文作者:Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
zhzxlcc1 年前
lmm
llava1.5-部署新建weights文件夹,并下载到LLaVA/weights/中。->需要修改文件名为llava-版本,例如llava-v1.5-7b.