用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件最近,大型语言模型(LLMs)在同时处理广泛的NLP任务的同时展示了令人印象深刻的推理和规划能力。因此,将它们与视觉模态集成,特别是用于视频理解任务,催生了视频大型多模态模型(Video-LMMs)。这些模型充当视觉聊天机器人,接受文本和视频作为输入,并处理各种任务,包括视频理解、详细的视频理解和行为定位。“视频理解” 通常指的是对视频内容的基本识别和理解,比如识别视频中的人物、场景和活动。这涵盖了对视频的一般性内容的理解。而"对视频内容的深入理解" 则是更深层次的,不仅仅是识别元素,还包括理解视频中的情