[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning让多模态大语言模型(MLLMs)跑得更快、更省资源,而且不需要重新训练模型。输入: 视觉数据(图像或视频)和文本提示(Text Prompts)。 任务: 多模态理解与推理任务,比如视频问答(VideoQA)、图像描述等。模型需要理解视觉内容并根据文本指令做出回答。 形式: 这是一个**无需训练(Training-free)**的推理加速框架,即插即用。 流程: 视觉编码后: 在视觉Token进入大语言模型(LLM)之前,先根据相似度合并一部分。LLM推理中: 在LLM的层与层之间,根据重要性逐步丢弃(剪