### 文章目录
- [@[toc]](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [一、 能够对图片进行解释的大语言模型有哪些?](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [1. 闭源/商业API(直接使用,无需部署)](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [2. 开源/可自部署(重点)](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [二、 开源的有哪些?](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [三、 哪些可以部署在自己的机器上?](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [四、 对机器的最低要求是什么?](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [分级推荐配置:](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [特殊情况:纯CPU推理](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
- [总结与建议](#文章目录 @[toc] 一、 能够对图片进行解释的大语言模型有哪些? 1. 闭源/商业API(直接使用,无需部署) 2. 开源/可自部署(重点) 二、 开源的有哪些? 三、 哪些可以部署在自己的机器上? 四、 对机器的最低要求是什么? 分级推荐配置: 特殊情况:纯CPU推理 总结与建议)
一、 能够对图片进行解释的大语言模型有哪些?
这类模型可以分为两大类:闭源/商业API 和开源/可自部署。
1. 闭源/商业API(直接使用,无需部署)
这些模型通常性能强大,但需要联网、按调用次数付费,且数据需要发送到厂商的服务器。
- GPT-4V(ision):OpenAI发布,是这类能力的标杆,功能全面,理解能力非常强。
- Gemini Pro Vision:Google DeepMind 发布,性能与GPT-4V接近,是强有力的竞争者。
- Claude 3 Sonnet / Opus (Anthropic):新晋的强大模型,在多模态理解方面表现优异。
- Qwen-VL-Plus (通义千问):阿里云的通义千问VL版本,在国内使用方便,能力不错。
2. 开源/可自部署(重点)
这些模型你可以下载到自己的机器上运行,保证数据隐私,且无使用费用。
二、 开源的有哪些?
开源社区在这方面发展非常迅速,涌现了大量优秀的模型。以下是一些主流的开源选择:
-
LLaVA 系列
- 简介:目前最流行、社区最活跃的开源多模态模型之一。它使用CLIP作为视觉编码器,将图像特征与LLaMA/Vicuna等大语言模型连接。
- 特点:易于训练和微调,版本迭代快(如LLaVA-1.5, LLaVA-NeXT),性能在开源中属于第一梯队。
- 推荐 :对于大多数个人开发者,LLaVA-1.5 是入门和部署的首选。
-
Qwen-VL 系列 (通义千问)
- 简介:阿里云开源的多模态大模型,有不同规模的版本(如Qwen-VL, Qwen-VL-Chat)。
- 特点:支持中英文,具备细粒度的视觉理解能力(如物体定位),功能全面。
-
InstructBLIP
- 简介:基于BLIP-2架构,通过指令微调大幅提升了模型的指令跟随和对话能力。
- 特点:在复杂的视觉推理任务上表现良好,但可能比LLaVA稍慢。
-
InternLM-XComposer2 (书生·浦语)
- 简介:上海AI实验室开源的强大模型,特别擅长"视觉-语言"的交叉创作。
- 特点:不仅理解能力强,还能根据图片和指令进行创作,性能强劲。
-
CogVLM
- 简介:一个在视觉语言模型中深度整合视觉和语言信息的模型。
- 特点:在多项基准测试上表现优异,尤其是对视觉细节的忠实度较高。
三、 哪些可以部署在自己的机器上?
上面第二点中提到的所有开源模型都可以部署在你自己的机器上。
部署这些模型通常需要以下工具和框架:
- Ollama :强烈推荐给个人用户 。它极大地简化了本地大模型的部署和管理。你只需要一条命令(如
ollama run llava:7b
)就能下载并运行模型,它还提供了友好的API。 - Transformers:Hugging Face 的库,是深度学习领域的标准库。你可以用Python代码直接加载和运行这些模型,灵活性最高。
- vLLM:一个专门用于大模型推理的高性能库,如果你追求极致的推理速度(Token吞吐量),可以使用它。
- LM Studio:一个带有图形界面的桌面应用,可以方便地搜索、下载并在本地运行各种大模型,对新手非常友好。
四、 对机器的最低要求是什么?
要求主要取决于模型的参数量。参数量越大,理解能力通常越强,但对硬件要求也越高。
核心要求:GPU显存
模型权重通常以16位浮点数(FP16)或8位整数(INT8)加载。一个简单的估算公式:
- FP16模型所需显存(GB) ≈ 参数量(B) × 2
- INT8量化模型所需显存(GB) ≈ 参数量(B) × 1
分级推荐配置:
-
入门级/最低配置(能跑起来)
- 模型 :7B(70亿)参数模型的4位量化版本(如LLaVA-7B-q4)。
- 要求 :
- GPU显存:≥ 8 GB (如 RTX 3070, RTX 4060 Ti, RTX 4070)
- 系统内存:≥ 16 GB
- 说明 :这是体验本地多模态模型的最低门槛。4位量化会损失少量精度,但能大幅降低显存占用。在8GB显存上运行7B模型会比较紧张,但可行。
-
主流/流畅体验配置
- 模型:7B~13B参数的FP16或8位量化版本(如LLaVA-13B, Qwen-VL-7B)。
- 要求 :
- GPU显存:≥ 16 GB ~ 24 GB (如 RTX 4080, RTX 4090, RTX 3090)
- 系统内存:≥ 32 GB
- 说明:这个配置可以比较流畅地运行大多数主流的开源多模态模型,响应速度较快,精度也更高。
-
高性能/研究级配置
- 模型:34B及以上参数的模型(如Qwen-VL-72B)。
- 要求 :
- GPU显存:≥ 80 GB (如双卡RTX 4090, 或 A100/H100等专业卡)
- 系统内存:≥ 64 GB
- 说明:适合商业部署或高级研究,能运行最顶尖的开源模型。
特殊情况:纯CPU推理
如果没有足够显存的GPU,也可以使用纯CPU运行,但速度会非常慢,不适合交互式使用。
- 要求:需要大量的系统内存(RAM),例如运行7B模型可能需要16GB以上的空闲内存,并且推理速度可能以"字/秒"来计算。
总结与建议
-
对于初学者和个人开发者:
- 模型 :从 LLaVA-7B 的4位量化版开始。
- 部署工具 :使用 Ollama 或 LM Studio,最简单快捷。
- 硬件 :确保你有一张 至少8GB显存的NVIDIA显卡 。这是获得可用体验的绝对前提。
-
部署命令示例(使用Ollama):
bash# 首先确保你的Ollama是最新版本 ollama pull llava:7b ollama run llava:7b
运行后,可以直接上传图片并向它提问。