Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models论文解读随着大型语言模型(LLMs)的快速发展,将多模态输入的强大能力融入视觉语言模型(VLMs)已成为当前模型的核心部分。为了弥合模态鸿沟,已有研究尝试将视觉与LLMs结合,从图像到视频都有涉及。尽管取得了进步,但学术界的努力与GPT-4和Gemini等成熟模型的强大性能之间仍存在显著差距,这些模型是基于大量数据和资源训练的。基于此,Mini-Gemini论文 通过高分辨率、高质量数据和结合生成模型(high-resolution visual tokens, high-quality data, and VL