开源多模态大模型全景对比：你的电脑，已经是 AI 工作站

AI + 一众专业 Agent + 网络搜索生成的调研文章，如有纰漏恭请指出~谢谢。

这个工具一键检测系统并给出可以部署的大模型选择想配一个可以跑大模型的主机，怎么搞比较好，经济方案？ - 知乎https://www.zhihu.com/question/595097884/answer/2010373646053553876

开源多模态大模型全景对比：你的电脑，已经是 AI 工作站

三年前，能看懂图片的 AI 需要几百万美元的服务器。一年前，需要一台顶配台式机。今天，你的 MacBook、你的游戏本、甚至你的 Steam Deck，都是 AI 工作站。

引子：菜市场里有 GPT-4V

想象你走进一个巨大的菜市场。每个摊位都冲你喊："我家白菜最甜！" "我家不用农药！" "我家的是国际获奖白菜！"

这就是 2025 年的开源多模态大模型世界。

但你其实不是来买白菜的，你是来买菜做晚饭的。你只想知道：哪个摊位的东西，配得上你的锅。

几个月前，如果你想用一个"能看懂图片的 AI"，大概率只有两条路：每月付 20 美元给 ChatGPT Plus，或者等国内大厂慢慢开放申请。无论哪条路，你的数据都要上传到别人的服务器------照片、截图、文档，悉数出门右转。

但现在，情况已经变了。而且是彻底变了。

开源社区在过去两年里，悄无声息地造出了一个"菜市场"------免费、本地运行、数据不出你电脑的多模态大模型，成群结队地涌现出来。它们能看图、能读字、能帮你分析图表、能识别照片里的物体，甚至能看懂你随手拍的会议白板。

而且，你不需要 A100 显卡，不需要服务器机房。 这件事，很多人都不知道。

这篇文章，就是你的"买菜指南"。

第一章：2023 → 2024 → 2025，开源多模态怎么悄悄追上的？

让我们先坐时光机回去看一眼。

2023 年上半年：玩具阶段

那时候，GPT-4V 还没发布。多模态能力是"高端付费功能"的代名词。开源世界里，LLaVA 横空出世------它能看图说话了！虽然效果粗糙，但"开源+多模态"这个组合第一次让开发者兴奋得睡不着觉。

紧随其后，MiniGPT-4 火了。它证明了"你不需要从头训练，把一个大语言模型（比如 Vicuna）和一个视觉编码器拼在一起就行"。这个思路，后来成了几乎所有开源多模态模型的通用方案。

BLIP-2 也在同一时期出现，来自 Salesforce 的团队，用了一种叫 Q-Former 的技术来桥接视觉和语言------思路优雅，但效果还没到"好用"的门槛。

2023 年下半年：军备竞赛

开源世界开始卷了。

CogVLM 来了，来自清华团队。它不是简单地把视觉编码器和语言模型拼起来，而是在每一层 Transformer 里都给视觉信息开了一条 "VIP 通道"。理解深度明显提升，代价是参数暴增，推理慢。

Qwen-VL 上线，阿里的通义千问有了眼睛。中文能力本土化优势明显，不只能看懂中文图片里的字，还能告诉你文本框在哪个位置------这是第一个把 OCR 和 visual grounding 做到 "实用级" 的开源模型。

2024 年：质变之年

InternVL 2 出现了。这是到目前为止，综合能力最强的开源多模态模型之一。来自上海 AI 实验室的团队，用了一种"渐进式对齐"的训练策略------先让视觉编码器理解简单图片，再逐渐增加复杂度。效果惊人：在多个基准测试中逼近甚至超越了 GPT-4V。

DeepSeek-VL2 也在 2024 年底登场。它证明了一个道理：小模型也能打。 通过精心设计的混合视觉编码器（同时处理高分辨率和低分辨率图片）和高质量的多模态训练数据，它在多项任务上追平了参数是它数倍的对手。

2025 年：不仅是"看懂"，还要"能操作"

进入 2025 年，开源多模态模型不再满足于"看图说话"。Janus 系列（DeepSeek 出品）往前走了一大步：同一个模型既能理解图片，也能生成图片------这是"统一多模态"方向的重要突破。Janus-Pro 7B 更进一步，在文生图质量上显著提升。

Qwen2-VL 也在这个阶段发布了，支持视频理解，支持大于 1 小时的视频输入，能动态调整分辨率来平衡效果和速度。

Phi-4-multimodal ，微软出品。最大亮点：语音+视觉+文本三模态合一，而且是少数能在手机上跑的级别。

Gemma 3，Google 正式入局开源多模态。12B 参数的版本在多项基准上表现惊艳，支持 140+ 种语言和 128K 上下文窗口，商业可用。

Pixtral 12B，来自法国的 Mistral AI。12B 参数在指令遵循（instruction following）任务上击败了同级别的 Qwen2-VL 和 LLaVA，而且用了 Apache 2.0 协议。

2025 下半年 - 2026：端侧雄起 + 统一多模态 + 视觉 Agent

Qwen3-VL （2025 年 10 月），阿里发布迄今为止最强的 Qwen 系列多模态模型。全面升级：Dense 和 MoE 双架构（从 2B 到 235B-A22B 全覆盖）、原生的 256K 上下文（可扩展到 1M）、支持小时级视频理解、32 语言 OCR。最关键的新能力：Visual Agent------能直接操作 PC 和手机界面，识别按钮、理解功能、调用工具完成任务。还有 Thinking 版本（带推理链），在数学和多步推理上表现突出。

Gemma 3（2025 年底），Google 带着 4B/12B/27B 入局开源多模态。支持 140+ 语言和 128K 上下文。Gemma 4 在 2026 年进一步把多模态推理能力推到了新高度。

Pixtral 12B（2025 年底），法国 Mistral AI 的首款多模态模型。12B 参数 + 400M 视觉编码器，在指令遵循上超越同级别的 Qwen2-VL 和 LLaVA。用了 Apache 2.0 协议，对开发者极度友好。还有 Pixtral Large（124B），但那是另一个量级的故事。

MiniCPM-V 4.6 （2026 年 5 月），面壁智能 & 清华出品。仅 1.3B 参数，6GB 内存流畅跑，但在多项基准上超越了 7B 甚至更大的模型。OCR 能力尤其强悍------复杂文档、表格、公式精准解析。Ollama 官方直接收录。作为系列最新作，它延续了"以小博大"的基因，把端侧多模态的性能边界又推了一步。

MiniCPM-o 4.5（2026 年 2 月），同系列的全模态旗舰（9B），一次性打通了视觉、语音、文本------支持实时语音对话、声音克隆、高帧率视频理解、30+ 语言 OCR。

Lance （2026 年 5 月），字节跳动智能创作团队开源。仅 3B 激活参数，原生统一多模态------同一个模型同时支持图像理解、视频理解、图像生成、视频生成和跨模态编辑。全程只用了 128 张 A100 训练，务实高效。

LLaVA-OneVision-2.0（2026 年 5 月），格灵深瞳基于 Qwen3-8B 打造，把全帧率视频理解成本降低了 87.5%，效果接近顶级闭源模型。

Llama 4（2026 年初），Meta 的新一代旗舰，Scout 和 Maverick 两个版本都内置了多模态能力，生态无人能及。

Ovis2（AIDC-AI），创新地结合了 aimv2 视觉编码器和 Qwen2.5-32B 语言模型，在精细视觉理解 + 复杂语言推理的交叉任务上表现亮眼。

第二章：20+ 个模型，四种段位

好，时间和趋势讲完了。现在上干货。

我们不按论文发布时间排序------那是给研究员看的。我们按你能不能跑、能不能用来分组。

🥇 第一梯队（全能旗舰）：不差钱不差硬件之选

这些模型追求"什么都能做，而且做得好"。代价：至少需要 24GB 显存的 GPU。

InternVL 2（上海 AI 实验室）

项目	详情
一句话	目前开源多模态的"天花板"之一
核心能力	图文深度理解、多图推理、OCR、文档分析、科学图表解读
参数	1B / 2B / 4B / 8B / 26B / 76B 多档可选
FP16 显存	76B 需 ~150GB（多卡），8B 需 ~16GB
INT4 显存	76B 约 40GB，26B 约 16GB，8B 约 6GB
协议	MIT（随意商用）

适合你如果： 你想做高质量的文档分析（合同、论文）、复杂图表解读、或者需要中文 OCR 的精度。中文能力在开源界名列前茅。

Qwen3-VL（阿里通义千问）⭐ 当前首选

项目	详情
一句话	阿里 Qwen 系列最强多模态，Dense + MoE 双架构，带 Visual Agent 能力
核心能力	图文理解、视频理解（原生256K上下文，可扩至1M，小时级视频）、32语言OCR、Visual Agent（操作PC/手机GUI）、2D+3D spatial grounding、数学推理、思维链推理（Thinking版）
参数	2B / 4B / 8B / 32B（Dense），30B-A3B / 235B-A22B（MoE）
FP16 显存	235B 需多卡，32B 需 ~64GB，8B 需 ~16GB，2B 需 ~4GB
INT4 显存	32B 约 18GB，8B 约 5GB，2B 约 1.5GB
协议	Apache 2.0

适合你如果： 你想要当前最强的开源多模态体验。Visual Agent 能力是独一份------可以让模型直接操作你的电脑界面完成任务。从 2B（手机可跑）到 235B MoE（仅22B激活，多卡可跑），覆盖面无人能及。

CogVLM2（清华智谱）

项目	详情
一句话	用 "VIP 通道" 架构，视觉理解深度突出
核心能力	图文理解、多轮看图对话、详细描述、OCR
参数	19B
FP16 显存	~40GB
INT4 显存	~12GB
协议	Apache 2.0

适合你如果： 你需要对图片的深度理解（不只是"图片里有什么"，而是"图片里的场景意味着什么"）。它的视觉细节捕捉在开源界名列前茅。

Qwen2.5-VL（阿里通义千问）

项目	详情
一句话	Qwen2-VL 的全面升级版，数学和文档能力再上一个台阶
核心能力	动态分辨率、数学推理、文档解析、视频理解、grounding
参数	7B / 72B
FP16 显存	72B 需 ~144GB，7B 需 ~14GB
INT4 显存	72B 约 40GB，7B 约 5GB
协议	Apache 2.0

适合你如果： 追求 Qwen 品质但硬件有限。虽然 Qwen3-VL 更强，但 Qwen2.5-VL 社区更成熟，部署踩坑少。追求最新 → Qwen3-VL；追求稳定 → Qwen2.5-VL。

Pixtral Large（Mistral AI）

项目	详情
一句话	法国 Mistral 的巨无霸，124B 参数的多模态猛兽
核心能力	图文理解、长上下文推理、函数调用、多语言
参数	124B
FP16 显存	~248GB（多卡）
INT4 显存	~70GB
协议	Mistral Research License（研究免费，商用需授权）

说明： 这是为追求极致性能的团队准备的，普通用户用 Pixtral 12B（见第二梯队）更实际。

🥈 第二梯队（均衡实用）：游戏本/中端台式的甜蜜点

这些模型在能力和硬件需求之间找到了精妙的平衡。16-24GB 显存足够跑，量化后 8-12GB 也能用。

Pixtral 12B（Mistral AI）

项目	详情
一句话	法国 Mistral 的首款多模态，指令遵循能力在 12B 级别领先
核心能力	图文理解、指令遵循（超越同级别 Qwen2-VL 和 LLaVA）、128K 上下文、多语言
参数	12B（解码器）+ 400M（视觉编码器）
FP16 显存	~26GB
INT4 显存	~8GB
协议	Apache 2.0

亮点： 指令遵循是它的杀手锏------你让它干什么它就干什么，不会自由发挥跑偏。对需要精确控制输出的场景（比如自动化文档处理）非常友好。

LLaVA-OneVision / LLaVA-NeXT

项目	详情
一句话	开源多模态的"常青树"，社区最大、教程最多
核心能力	图文对话、多图理解、OCR、视频理解（OneVision-2.0 基于 Qwen3-8B）
参数	7B / 8B / 13B / 34B
FP16 显存	34B 需 ~68GB，13B 需 ~26GB，7B 需 ~14GB
INT4 显存	13B 约 8GB，7B 约 4GB
协议	Apache 2.0

亮点： LLaVA-OneVision-2.0（2026 年 5 月发布，格灵深瞳基于 Qwen3-8B 打造）把视频理解成本降低了 87.5%。LLaVA 系列最大的优势是------遇到问题 Google 一下就有答案。入门首选。

Gemma 3/4（Google）

项目	详情
一句话	Google 的开源多模态，140+ 语言，商业可用
核心能力	图文理解、视频输入、多语言（140+）、动态分辨率
参数	Gemma 3: 4B/12B/27B；Gemma 4: 进一步升级
FP16 显存	27B 需 ~54GB，12B 需 ~24GB，4B 需 ~8GB
INT4 显存	12B 约 7GB，4B 约 2.5GB
协议	Google 自有协议（允许负责任的商业使用）

适合你如果： 你的使用场景是多语言（不只是中英文），或者你更信赖 Google 的品质。12B 版本在大多数家用 GPU 上都能畅快跑。

Ovis2（AIDC-AI）

项目	详情
一句话	aimv2 视觉编码器 + Qwen2.5-32B 语言模型，精细视觉+复杂推理的交叉专家
核心能力	精细视觉理解、复杂语言推理、图文对齐
参数	基于 Qwen2.5-32B
FP16 显存	~64GB
INT4 显存	~18GB
协议	Apache 2.0

适合你如果： 你需要同时处理"看图要特别仔细"和"推理要特别复杂"的场景，比如分析医学影像并写出诊断推理过程。

DeepSeek-VL2

项目	详情
一句话	"小钢炮"------参数不大但能力相当能打
核心能力	图文理解、OCR、图表分析，混合视觉编码器
参数	3B / 16B / 27B
FP16 显存	27B 需 ~54GB，16B 需 ~32GB，3B 需 ~6GB
INT4 显存	16B 约 10GB，3B 约 2GB
协议	MIT

亮点： 3B 版本在手机和边缘设备上都能跑。DeepSeek 在训练数据质量上花了大力气，小参数的聪明程度经常让人惊讶。参数数量不是一切。 就像车的排量不如变速箱重要------3B 的 DeepSeek-VL2 在某些任务上能让 7B 的对手汗颜。

Yi-VL（零一万物）

项目	详情
一句话	李开复团队的力作，中文和英文双语能力均衡
核心能力	图文对话、中英双语、文档理解
参数	6B / 34B
FP16 显存	34B 需 ~68GB，6B 需 ~12GB
INT4 显存	34B 约 20GB，6B 约 4GB
协议	Apache 2.0

🥉 第三梯队（轻量便携）：笔记本也能畅快跑

这类模型的设计哲学是"够用即可"。核显 8GB 的轻薄本，也能跑得动。

MiniCPM-V 4.6（面壁智能 & 清华）⭐ 端侧之王

项目	详情
一句话	仅 1.3B 参数，6GB 内存流畅跑，性能超越众多 7B+ 模型
核心能力	图文理解、高精度OCR（复杂文档/表格/公式）、视频理解、中英双语
参数	1.3B
FP16 显存	~3GB
INT4 显存	~1GB
协议	Apache 2.0（待确认）

适合你如果： 你的设备是轻薄本、平板甚至手机，但你想用 AI 处理文档、识别图片。2026 年 5 月最新发布，Ollama 官方直接收录。端侧多模态的性价比之王。

Lance（字节跳动）⭐ 统一多模态新星

项目	详情
一句话	3B 原生统一多模态------同时支持理解、生成、编辑，图像+视频全覆盖
核心能力	图像理解+生成、视频理解+生成、跨模态编辑、多轮编辑一致性
参数	3B（激活参数）
FP16 显存	~40GB（原生架构显存需求较高）
INT4 显存	待确认
协议	MIT

适合你如果： 你想在一个模型里同时搞定"看图"和"做图"------比如让 AI 看懂你的设计稿然后帮你改图。128 张 A100 就能从头训练出来的统一模型，务实派的最爱。

MiniCPM-o 4.5（面壁智能 & 清华）

项目	详情
一句话	9B 全模态旗舰：视觉+语音+文本，支持实时语音对话和声音克隆
核心能力	实时语音对话、声音克隆、高帧率视频理解、30+语言OCR、图像理解
参数	9B
FP16 显存	~18GB
INT4 显存	~5GB
协议	开源

适合你如果： 你不仅想让 AI 看图，还想跟它语音对话------比如"帮我看看这张菜单，哪些菜不含花生"，直接说话不用打字。

Janus / Janus-Pro（DeepSeek）

项目	详情
一句话	一个模型既能理解图也能生成图，Janus-Pro 7B 文生图质量显著提升
核心能力	图文理解 + 图像生成（统一架构）
参数	Janus: 1.3B / Janus-Pro: 1B & 7B
FP16 显存	7B 需 ~14GB，1.3B 需 ~3GB
INT4 显存	7B 约 4GB，1.3B 约 1GB
协议	MIT

亮点： 如果你想体验"统一多模态"------一个模型既当眼睛又当画笔------Janus 系列是最早做到这点的开源项目之一。与 Lance 相比，Lance 多了一个视频维度，而 Janus 更轻量。

Phi-4-multimodal（Microsoft）

项目	详情
一句话	微软的"三合一"：语音+视觉+文字，手机上能流畅跑
核心能力	图文理解、OCR、语音识别与理解、128K 上下文
参数	5.6B
FP16 显存	~11GB
INT4 显存	~3.5GB
协议	MIT

亮点： 语音+视觉+文字三合一，手机上流畅跑。你可以对着手机说"帮我看看这张购物小票一共多少钱"。

PaliGemma（Google）

项目	详情
一句话	Google 的"专用工具"------细粒度视觉任务的专业选手
核心能力	OCR、目标检测、图像描述、视觉问答
参数	3B
FP16 显存	~6GB
INT4 显存	~2GB
协议	Google 自有协议（研究友好，商用需确认）

亮点： 如果你只需要做一件事------比如专门识别照片中的文字、专门做目标定位------PaliGemma 比全能模型更准更快。

📜 历史功勋（已不推荐新项目使用，但值得知道）

这些模型在开源多模态发展史上留下了浓重一笔，但今天有更好的替代选择。

MiniGPT-4（2023）：证明了"语言模型 + 视觉编码器 + 对齐层"架构可行，影响了所有后来者
BLIP-2（Salesforce, 2023）：Q-Former 桥接方案，工业界经典
LLaVA 1.5（2023）：开源多模态的"Hello World"，社区起点

第三章：你的显卡，决定了你的天花板

好了，模型介绍完了。接下来是最现实的问题：你的电脑能不能跑？

为什么显存这么重要？

先说个简单类比：显存就是你的厨房大小。 你要做的菜（模型）越大，需要的操作台（显存）就得越大。厨房不够大，菜就只能分批次做------结果就是慢到无法忍受。

当你加载一个模型时，它的所有权重 都要放进显存里。一个 7B 参数（70 亿个参数）的模型，如果用 FP16（每个参数占 2 字节）来存，光裸模型就要占 ~14GB 显存。再加上推理时的临时数据，实际需要 16-18GB。

量化是什么？降级食材但味道差不多

好在，有一个叫量化的技术。

继续用厨房类比：FP16 是用"完整菜谱"做菜------每种调料精确到克。INT8 量化 是把菜谱精简到"大勺、中勺、小勺"------精度降低了，但味道差不了太多。INT4 量化就更激进了------"放点盐、放点酱油"------有时候确实会翻车，但大多数情况能用。

在 AI 模型里，量化意味着把每个参数的精度从 16 位浮点数压缩到 8 位甚至 4 位整数。效果是：

一个需要 14GB 的 7B 模型，INT4 量化后只需要 ~4GB
代价是某些精细的理解能力会略微下降（大约 2-5%）

一句话总结：量化是用 2-5% 的精度损失，换 60-70% 的显存节省。 绝大多数家用场景下，这个交换是非常划算的。

你的设备能跑什么？

你的设备	典型显存	FP16 能跑	INT4 能跑	推荐模型
核显轻薄本（MacBook Air / 办公本）	8GB 共享内存	1-3B	3-8B	MiniCPM-V 4.6, Janus, Phi-4, Qwen3-VL-2B, DeepSeek-VL2-3B
MacBook Pro / 中端游戏本	16-24GB	7-8B	13-32B	Qwen3-VL-8B, LLaVA-13B, InternVL2-8B, Pixtral 12B, Gemma 3-12B
RTX 4090 / 高端工作站	24GB	8-13B	32B-72B	Qwen3-VL-32B(INT4), InternVL2-26B, DeepSeek-VL2-27B
双卡/专业卡（A100/A6000）	48-80GB	32-72B	235B(MoE)	Qwen3-VL-235B-A22B(MoE), InternVL2-76B

重要提示： Apple Silicon（M1/M2/M3/M4）的 Mac 用户有额外优势------统一内存架构意味着可以把你的 RAM 当显存用。一台 32GB 内存的 MacBook Pro，理论上能跑需要 24GB 显存的模型。

第四章：三个预算，三套方案

如果你懒得看上面所有细节，这里直接给你"抄作业"：

方案 A：零预算入门（核显轻薄本 / MacBook Air）

目标： 在你的日常电脑上体验"能看图的 AI"，不花钱。

推荐组合：

主力模型：MiniCPM-V 4.6 （1.3B，端侧最强 OCR，~3GB）或 Qwen3-VL-2B（2B，最新架构，~4GB）
备选：Janus （1.3B，理解+生成，~3GB）或 Phi-4-multimodal（5.6B，支持语音，INT4 约 3.5GB）

体验预期： 日常看图、OCR、文档识别完全够用。MiniCPM-V 4.6 在复杂文档解析上尤其出色。

部署方式： 用 Ollama 或 LM Studio，五分钟搞定（见下一章）。

方案 B：进阶级（游戏本 / RTX 3070-4070 / MacBook Pro M2 Pro+）

目标： 获得接近商用模型（GPT-4V / Gemini）级别的多模态能力。

推荐组合：

主力模型：Qwen3-VL-8B （8B，最新架构+Visual Agent，INT4 约 5GB）或 Pixtral 12B（12B，指令遵循之王，INT4 约 8GB）
进阶：InternVL2-8B （8B，全能型经典，INT4 约 6GB）或 Gemma 3-12B（12B，多语言，INT4 约 7GB）
专业用途：CogVLM2（19B，理解深度突出，INT4 约 12GB）

体验预期： 日常看图、OCR、文档分析、多轮对话，体验接近商用模型（GPT-4V/Gemini 级别）。可以替代 ChatGPT Plus 的图片分析功能。

方案 C：专业级（RTX 4090 / 双卡 / 云 GPU）

目标： 达到当前开源多模态的天花板，追求极致质量。

推荐组合：

主力模型：Qwen3-VL-32B（32B，INT4 约 18GB，单卡 4090 可跑）------最新架构全能
视频理解：Qwen3-VL-32B （256K→1M 上下文）或 LLaVA-OneVision-2.0（基于 Qwen3-8B，成本极低）
极致质量：Qwen3-VL-235B-A22B （MoE 架构，仅 22B 激活，多卡 INT4 约 65GB）或 InternVL2-76B（多卡 INT4 约 40GB）
特殊需求：PaliGemma（细粒度视觉任务专用）

体验预期： 在大多数任务上接近或超越 GPT-4V（特别是在中文 OCR 和文档分析上）。Visual Agent 能力还能让模型替你操作电脑界面。方案 B 已经能满足 95% 的需求，方案 C 更适合性能极致追求者。

第五章：从下载到运行，15 分钟入门

说了一堆模型，你最关心的可能是：怎么装？怎么用？是不是要学 Python？

答案是：五分钟装好，十分钟跑起来。不需要写代码。

最简单的方案：Ollama（推荐）

Ollama 是一个"一键安装"的本地模型运行工具。类比：如果你用过 Steam 装游戏，Ollama 就是 AI 模型的 Steam。

第一步：安装 Ollama

去 ollama.com 下载对应版本（Mac / Windows / Linux）
双击安装，全程只需要点"下一步"

第二步：下载模型 打开终端（命令行），输入：

复制代码

# 以 LLaVA 为例
ollama run llava:13b

# Qwen3-VL（推荐）
ollama run qwen3-vl:8b

# MiniCPM-V（端侧神器）
ollama run minicpm-v

# Llama 3.2 Vision
ollama run llama3.2-vision

它会自动下载模型（第一次需要等一会，取决于网速），然后直接进入对话。

第三步：发一张图片

复制代码

# 在对话中，直接拖拽图片进去，或者输入图片路径
>>> 描述这张图片 [拖入图片]

就这么简单。

进阶方案：LM Studio

LM Studio 是一个带图形界面的本地模型管理工具。

下载安装 LM Studio
在搜索栏搜索你想要的多模态模型（比如 "qwen2-vl"）
点击下载 → 点击加载 → 开始聊天

全程鼠标操作，完全不需要命令行。

备选方案：vLLM / SGLang（开发者用）

如果你是开发者，需要 API 接口来对接自己的应用：

复制代码

# 安装 vLLM
pip install vllm

# 启动 API 服务
vllm serve llava-hf/llava-1.5-7b-hf --port 8000

之后就可以像调用 OpenAI API 一样调用本地模型了。

云 GPU 替代方案（如果本地硬件不够）

如果你想让更大的模型但本地跑不动，国内有一个很好的选择：

AutoDL：学生价几块钱一小时，就能租到 RTX 3090/4090/A100。用法和本地部署差不多，只是跑在云端。适合短期体验和批量处理任务。

尾声：你的电脑，已经是 AI 工作站

回到文章开头那句话：

三年前，能看懂图片的 AI 需要几百万美元的服务器。一年前，需要一台顶配台式机。今天，你的 MacBook Air 就能跑一个。

这件事的意义，比"技术进步"大得多。

它意味着：AI 不再是大公司的特权。 你看图、分析文档、处理碎片化信息的自由，不需要付月费，不需要上传数据，不需要等排队。

差的从来不是硬件，而是挑选好货的眼光。

希望这篇买菜指南，帮你找到了配得上你锅的摊位。

附录：模型速查卡片

适合保存或转发。按"显存门槛"从低到高排列。

模型	参数	最低显存(INT4)	中文能力	一句话定位
MiniCPM-V 4.6	1.3B	~1GB	⭐优秀	端侧OCR之王，6GB内存流畅跑
Janus / Janus-Pro	1.3B/7B	~1GB	一般	理解+生成统一，MIT协议
Qwen3-VL-2B	2B	~1.5GB	⭐优秀	最新Qwen架构，手机可跑
Phi-4-multimodal	5.6B	~3.5GB	一般	语音+视觉+文字三合一
Lance	3B	待确认	良好	字节出品，原生统一多模态
DeepSeek-VL2-3B	3B	~2GB	良好	小参数量里最能打的
Qwen3-VL-8B	8B	~5GB	⭐优秀	Visual Agent加持的全能选手
Pixtral 12B	12B	~8GB	良好	指令遵循之王，Apache 2.0
LLaVA-13B	13B	~8GB	良好	社区最大、教程最多
InternVL2-8B	8B	~6GB	⭐优秀	8B里的经典全能冠军
Gemma 3-12B	12B	~7GB	一般	140+语言，Google出品
CogVLM2	19B	~12GB	良好	视觉细节理解深度第一
Qwen3-VL-32B	32B	~18GB	⭐优秀	单卡4090能跑的最强多模态
Qwen3-VL-235B-A22B	235B(MoE)	~65GB	⭐优秀	开源多模态天花板，MoE架构
InternVL2-76B	76B	~40GB	⭐优秀	经典旗舰，MIT协议商用无忧

本文写于 2026 年 6 月。开源世界变化极快，建议收藏并在实际使用前核对模型的最新版本和部署方式。

如果你觉得这篇文章有用，欢迎分享给正在纠结"要不要买 ChatGPT Plus"的朋友。谁知道呢------他们可能已经在跑一个本地 AI 了。