mini-gemini - mini-gemini技术,学习,经验文章

tangjunjun-owen

2 年前

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models论文解读随着大型语言模型（LLMs）的快速发展，将多模态输入的强大能力融入视觉语言模型（VLMs）已成为当前模型的核心部分。为了弥合模态鸿沟，已有研究尝试将视觉与LLMs结合，从图像到视频都有涉及。尽管取得了进步，但学术界的努力与GPT-4和Gemini等成熟模型的强大性能之间仍存在显著差距，这些模型是基于大量数据和资源训练的。基于此，Mini-Gemini论文通过高分辨率、高质量数据和结合生成模型(high-resolution visual tokens, high-quality data, and VL