论文阅读:LLaVA-OneVision: Easy Visual Task Transfer论文地址:https://arxiv.org/pdf/2408.03326 公开时间:2024年9月14日 项目地址:https://llava-vl.github.io/blog/llava-onevision LLaVA-OneVision是一个开放的大型多模态模型(LMMs),它是通过整合在LLaVA-NeXT博客系列中的数据、模型和可视化表示的见解而开发的。实验结果表明,LLaVA-OneVision是第一个能够在三个重要的计算机视觉场景:单图像、多图像和视频场景的单一模型。重要的是,LLaVAO