LLaVA：开源多模态大模型的主流选择

文章目录

LLaVA：开源多模态大模型的主流选择
- [1、核心功能是什么](#1、核心功能是什么)
- [2、实际使用价值](#2、实际使用价值)
- [3、主要特性](#3、主要特性)
- [4、快速上手教程](#4、快速上手教程)
- - 安装
  - 命令行使用
  - [Python API 调用](#Python API 调用)
- [5、适用场景](#5、适用场景)

LLaVA：开源多模态大模型的主流选择

LLaVA 在 GitHub 上已经拿到 24.7K Star。

这个开源项目由威斯康星大学麦迪逊分校等机构的研究人员开发，专注于视觉指令调优，实现了 GPT-4 级别的多模态能力。

1、核心功能是什么

LLaVA 是视觉语言大模型，能同时处理文本和图像输入，输出符合人类指令的回答。

用户上传图片并输入问题后，模型可以识别图像内容，完成问答、描述、推理等任务。目前最新版本为 LLaVA-NeXT，支持 Llama-3 和 Qwen-1.5 等基座模型，在部分基准测试中表现超过 Gemini Pro。

2、实际使用价值

开发多模态应用的开发者，经常需要处理图像和文本结合的场景。传统方案需要分别对接图像识别模型和语言模型，再做结果融合，开发成本高，效果不稳定。

LLaVA 提供了端到端的解决方案，开箱即可使用多模态能力。支持 4 倍分辨率输入，能识别更多图像细节。项目还提供了视频处理能力，零样本即可完成视频理解任务。

3、主要特性

性能表现

LLaVA-1.5 在 11 个基准测试中取得最优结果，训练只需要 1 天时间，使用单张 8-A100 显卡即可完成，训练成本低于同类使用百亿级数据的模型。

部署灵活性

模型支持 4 位、8 位量化部署，最低 12GB VRAM 即可运行 13B 版本，8GB VRAM 即可运行 7B 版本。适配 Linux、Windows、macOS 等系统，同时支持 CPU 和 Intel 独立显卡运行。

生态扩展

项目提供了 Gradio 可视化界面、命令行工具、Python API 等多种使用方式。支持 LoRA 微调，用户可以基于自己的数据集定制模型。社区已经贡献了 llama.cpp 部署、Colab 运行脚本、Hugging Face 在线演示等扩展内容。

4、快速上手教程

安装

bash 复制代码

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip
pip install -e .

需要训练功能的用户可以额外安装依赖：

bash 复制代码

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

命令行使用

bash 复制代码

python -m llava.serve.cli \
    --model-path liuhaotian/llava-v1.5-7b \
    --image-file "your_image.jpg" \
    --load-4bit

Python API 调用

python 复制代码

from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path
from llava.eval.run_llava import eval_model

model_path = "liuhaotian/llava-v1.5-7b"
prompt = "描述这张图片的内容"
image_file = "your_image.jpg"

args = type('Args', (), {
    "model_path": model_path,
    "model_base": None,
    "model_name": get_model_name_from_path(model_path),
    "query": prompt,
    "conv_mode": None,
    "image_file": image_file,
    "sep": ",",
    "temperature": 0,
    "top_p": None,
    "num_beams": 1,
    "max_new_tokens": 512
})()

eval_model(args)

5、适用场景

开发图像问答、内容审核、视觉推理等多模态应用的开发者
需要批量处理图像数据、提取结构化信息的企业用户
研究多模态大模型的学术人员
搭建 AI Agent、需要模型理解视觉输入的场景

开源地址：https://github.com/haotian-liu/LLaVA

大模型的学术人员

搭建 AI Agent、需要模型理解视觉输入的场景

开源地址：https://github.com/haotian-liu/LLaVA

LLaVA：开源多模态大模型的主流选择

文章目录