对图片进行解释的大语言模型

### 文章目录

[@[toc]](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[一、能够对图片进行解释的大语言模型有哪些？](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[1. 闭源/商业API（直接使用，无需部署）](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[2. 开源/可自部署（重点）](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[二、开源的有哪些？](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[三、哪些可以部署在自己的机器上？](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[四、对机器的最低要求是什么？](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[分级推荐配置：](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[特殊情况：纯CPU推理](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)
[总结与建议](#文章目录 @[toc] 一、能够对图片进行解释的大语言模型有哪些？ 1. 闭源/商业API（直接使用，无需部署） 2. 开源/可自部署（重点）二、开源的有哪些？三、哪些可以部署在自己的机器上？四、对机器的最低要求是什么？分级推荐配置：特殊情况：纯CPU推理总结与建议)

一、能够对图片进行解释的大语言模型有哪些？

这类模型可以分为两大类：闭源/商业API 和开源/可自部署。

1. 闭源/商业API（直接使用，无需部署）

这些模型通常性能强大，但需要联网、按调用次数付费，且数据需要发送到厂商的服务器。

GPT-4V(ision)：OpenAI发布，是这类能力的标杆，功能全面，理解能力非常强。
Gemini Pro Vision：Google DeepMind 发布，性能与GPT-4V接近，是强有力的竞争者。
Claude 3 Sonnet / Opus (Anthropic)：新晋的强大模型，在多模态理解方面表现优异。
Qwen-VL-Plus (通义千问)：阿里云的通义千问VL版本，在国内使用方便，能力不错。

2. 开源/可自部署（重点）

这些模型你可以下载到自己的机器上运行，保证数据隐私，且无使用费用。

二、开源的有哪些？

开源社区在这方面发展非常迅速，涌现了大量优秀的模型。以下是一些主流的开源选择：

LLaVA 系列
- 简介：目前最流行、社区最活跃的开源多模态模型之一。它使用CLIP作为视觉编码器，将图像特征与LLaMA/Vicuna等大语言模型连接。
- 特点：易于训练和微调，版本迭代快（如LLaVA-1.5, LLaVA-NeXT），性能在开源中属于第一梯队。
- 推荐：对于大多数个人开发者，LLaVA-1.5 是入门和部署的首选。
Qwen-VL 系列（通义千问）
- 简介：阿里云开源的多模态大模型，有不同规模的版本（如Qwen-VL, Qwen-VL-Chat）。
- 特点：支持中英文，具备细粒度的视觉理解能力（如物体定位），功能全面。
InstructBLIP
- 简介：基于BLIP-2架构，通过指令微调大幅提升了模型的指令跟随和对话能力。
- 特点：在复杂的视觉推理任务上表现良好，但可能比LLaVA稍慢。
InternLM-XComposer2 （书生·浦语）
- 简介：上海AI实验室开源的强大模型，特别擅长"视觉-语言"的交叉创作。
- 特点：不仅理解能力强，还能根据图片和指令进行创作，性能强劲。
CogVLM
- 简介：一个在视觉语言模型中深度整合视觉和语言信息的模型。
- 特点：在多项基准测试上表现优异，尤其是对视觉细节的忠实度较高。

三、哪些可以部署在自己的机器上？

上面第二点中提到的所有开源模型都可以部署在你自己的机器上。

部署这些模型通常需要以下工具和框架：

Ollama ：强烈推荐给个人用户 。它极大地简化了本地大模型的部署和管理。你只需要一条命令（如 ollama run llava:7b）就能下载并运行模型，它还提供了友好的API。
Transformers：Hugging Face 的库，是深度学习领域的标准库。你可以用Python代码直接加载和运行这些模型，灵活性最高。
vLLM：一个专门用于大模型推理的高性能库，如果你追求极致的推理速度（Token吞吐量），可以使用它。
LM Studio：一个带有图形界面的桌面应用，可以方便地搜索、下载并在本地运行各种大模型，对新手非常友好。

四、对机器的最低要求是什么？

要求主要取决于模型的参数量。参数量越大，理解能力通常越强，但对硬件要求也越高。

核心要求：GPU显存

模型权重通常以16位浮点数（FP16）或8位整数（INT8）加载。一个简单的估算公式：

FP16模型所需显存（GB） ≈ 参数量（B） × 2
INT8量化模型所需显存（GB） ≈ 参数量（B） × 1

分级推荐配置：

入门级/最低配置（能跑起来）
- 模型：7B（70亿）参数模型的4位量化版本（如LLaVA-7B-q4）。
- 要求：
  - GPU显存：≥ 8 GB （如 RTX 3070, RTX 4060 Ti, RTX 4070）
  - 系统内存：≥ 16 GB
- 说明：这是体验本地多模态模型的最低门槛。4位量化会损失少量精度，但能大幅降低显存占用。在8GB显存上运行7B模型会比较紧张，但可行。
主流/流畅体验配置
- 模型：7B~13B参数的FP16或8位量化版本（如LLaVA-13B， Qwen-VL-7B）。
- 要求：
  - GPU显存：≥ 16 GB ~ 24 GB （如 RTX 4080, RTX 4090, RTX 3090）
  - 系统内存：≥ 32 GB
- 说明：这个配置可以比较流畅地运行大多数主流的开源多模态模型，响应速度较快，精度也更高。
高性能/研究级配置
- 模型：34B及以上参数的模型（如Qwen-VL-72B）。
- 要求：
  - GPU显存：≥ 80 GB （如双卡RTX 4090，或 A100/H100等专业卡）
  - 系统内存：≥ 64 GB
- 说明：适合商业部署或高级研究，能运行最顶尖的开源模型。

特殊情况：纯CPU推理

如果没有足够显存的GPU，也可以使用纯CPU运行，但速度会非常慢，不适合交互式使用。

要求：需要大量的系统内存（RAM），例如运行7B模型可能需要16GB以上的空闲内存，并且推理速度可能以"字/秒"来计算。

总结与建议

对于初学者和个人开发者：
- 模型：从 LLaVA-7B 的4位量化版开始。
- 部署工具 ：使用 Ollama 或 LM Studio，最简单快捷。
- 硬件：确保你有一张 至少8GB显存的NVIDIA显卡 。这是获得可用体验的绝对前提。
部署命令示例（使用Ollama）:
bash 复制代码
```
# 首先确保你的Ollama是最新版本
ollama pull llava:7b
ollama run llava:7b
```
运行后，可以直接上传图片并向它提问。