AI + 一众专业 Agent + 网络搜索 生成的调研文章,如有纰漏恭请指出~谢谢。
这个工具一键检测系统并给出可以部署的大模型选择 想配一个可以跑大模型的主机,怎么搞比较好,经济方案? - 知乎
https://www.zhihu.com/question/595097884/answer/2010373646053553876
开源多模态大模型全景对比:你的电脑,已经是 AI 工作站
三年前,能看懂图片的 AI 需要几百万美元的服务器。一年前,需要一台顶配台式机。今天,你的 MacBook、你的游戏本、甚至你的 Steam Deck,都是 AI 工作站。
引子:菜市场里有 GPT-4V
想象你走进一个巨大的菜市场。每个摊位都冲你喊:"我家白菜最甜!" "我家不用农药!" "我家的是国际获奖白菜!"
这就是 2025 年的开源多模态大模型世界。
但你其实不是来买白菜的,你是来买菜做晚饭的。你只想知道:哪个摊位的东西,配得上你的锅。
几个月前,如果你想用一个"能看懂图片的 AI",大概率只有两条路:每月付 20 美元给 ChatGPT Plus,或者等国内大厂慢慢开放申请。无论哪条路,你的数据都要上传到别人的服务器------照片、截图、文档,悉数出门右转。
但现在,情况已经变了。而且是彻底变了。
开源社区在过去两年里,悄无声息地造出了一个"菜市场"------免费、本地运行、数据不出你电脑的多模态大模型,成群结队地涌现出来。它们能看图、能读字、能帮你分析图表、能识别照片里的物体,甚至能看懂你随手拍的会议白板。
而且,你不需要 A100 显卡,不需要服务器机房。 这件事,很多人都不知道。
这篇文章,就是你的"买菜指南"。
第一章:2023 → 2024 → 2025,开源多模态怎么悄悄追上的?
让我们先坐时光机回去看一眼。
2023 年上半年:玩具阶段
那时候,GPT-4V 还没发布。多模态能力是"高端付费功能"的代名词。开源世界里,LLaVA 横空出世------它能看图说话了!虽然效果粗糙,但"开源+多模态"这个组合第一次让开发者兴奋得睡不着觉。
紧随其后,MiniGPT-4 火了。它证明了"你不需要从头训练,把一个大语言模型(比如 Vicuna)和一个视觉编码器拼在一起就行"。这个思路,后来成了几乎所有开源多模态模型的通用方案。
BLIP-2 也在同一时期出现,来自 Salesforce 的团队,用了一种叫 Q-Former 的技术来桥接视觉和语言------思路优雅,但效果还没到"好用"的门槛。
2023 年下半年:军备竞赛
开源世界开始卷了。
CogVLM 来了,来自清华团队。它不是简单地把视觉编码器和语言模型拼起来,而是在每一层 Transformer 里都给视觉信息开了一条 "VIP 通道"。理解深度明显提升,代价是参数暴增,推理慢。
Qwen-VL 上线,阿里的通义千问有了眼睛。中文能力本土化优势明显,不只能看懂中文图片里的字,还能告诉你文本框在哪个位置------这是第一个把 OCR 和 visual grounding 做到 "实用级" 的开源模型。
2024 年:质变之年
InternVL 2 出现了。这是到目前为止,综合能力最强的开源多模态模型之一。来自上海 AI 实验室的团队,用了一种"渐进式对齐"的训练策略------先让视觉编码器理解简单图片,再逐渐增加复杂度。效果惊人:在多个基准测试中逼近甚至超越了 GPT-4V。
DeepSeek-VL2 也在 2024 年底登场。它证明了一个道理:小模型也能打。 通过精心设计的混合视觉编码器(同时处理高分辨率和低分辨率图片)和高质量的多模态训练数据,它在多项任务上追平了参数是它数倍的对手。
2025 年:不仅是"看懂",还要"能操作"
进入 2025 年,开源多模态模型不再满足于"看图说话"。Janus 系列(DeepSeek 出品)往前走了一大步:同一个模型既能理解图片,也能生成图片------这是"统一多模态"方向的重要突破。Janus-Pro 7B 更进一步,在文生图质量上显著提升。
Qwen2-VL 也在这个阶段发布了,支持视频理解,支持大于 1 小时的视频输入,能动态调整分辨率来平衡效果和速度。
Phi-4-multimodal ,微软出品。最大亮点:语音+视觉+文本三模态合一,而且是少数能在手机上跑的级别。
Gemma 3,Google 正式入局开源多模态。12B 参数的版本在多项基准上表现惊艳,支持 140+ 种语言和 128K 上下文窗口,商业可用。
Pixtral 12B,来自法国的 Mistral AI。12B 参数在指令遵循(instruction following)任务上击败了同级别的 Qwen2-VL 和 LLaVA,而且用了 Apache 2.0 协议。
2025 下半年 - 2026:端侧雄起 + 统一多模态 + 视觉 Agent
Qwen3-VL (2025 年 10 月),阿里发布迄今为止最强的 Qwen 系列多模态模型。全面升级:Dense 和 MoE 双架构(从 2B 到 235B-A22B 全覆盖)、原生的 256K 上下文(可扩展到 1M)、支持小时级视频理解、32 语言 OCR。最关键的新能力:Visual Agent------能直接操作 PC 和手机界面,识别按钮、理解功能、调用工具完成任务。还有 Thinking 版本(带推理链),在数学和多步推理上表现突出。
Gemma 3(2025 年底),Google 带着 4B/12B/27B 入局开源多模态。支持 140+ 语言和 128K 上下文。Gemma 4 在 2026 年进一步把多模态推理能力推到了新高度。
Pixtral 12B(2025 年底),法国 Mistral AI 的首款多模态模型。12B 参数 + 400M 视觉编码器,在指令遵循上超越同级别的 Qwen2-VL 和 LLaVA。用了 Apache 2.0 协议,对开发者极度友好。还有 Pixtral Large(124B),但那是另一个量级的故事。
MiniCPM-V 4.6 (2026 年 5 月),面壁智能 & 清华出品。仅 1.3B 参数,6GB 内存流畅跑,但在多项基准上超越了 7B 甚至更大的模型。OCR 能力尤其强悍------复杂文档、表格、公式精准解析。Ollama 官方直接收录。作为系列最新作,它延续了"以小博大"的基因,把端侧多模态的性能边界又推了一步。
MiniCPM-o 4.5(2026 年 2 月),同系列的全模态旗舰(9B),一次性打通了视觉、语音、文本------支持实时语音对话、声音克隆、高帧率视频理解、30+ 语言 OCR。
Lance (2026 年 5 月),字节跳动智能创作团队开源。仅 3B 激活参数,原生统一多模态------同一个模型同时支持图像理解、视频理解、图像生成、视频生成和跨模态编辑。全程只用了 128 张 A100 训练,务实高效。
LLaVA-OneVision-2.0(2026 年 5 月),格灵深瞳基于 Qwen3-8B 打造,把全帧率视频理解成本降低了 87.5%,效果接近顶级闭源模型。
Llama 4(2026 年初),Meta 的新一代旗舰,Scout 和 Maverick 两个版本都内置了多模态能力,生态无人能及。
Ovis2(AIDC-AI),创新地结合了 aimv2 视觉编码器和 Qwen2.5-32B 语言模型,在精细视觉理解 + 复杂语言推理的交叉任务上表现亮眼。
第二章:20+ 个模型,四种段位
好,时间和趋势讲完了。现在上干货。
我们不按论文发布时间排序------那是给研究员看的。我们按你能不能跑、能不能用来分组。
🥇 第一梯队(全能旗舰):不差钱不差硬件之选
这些模型追求"什么都能做,而且做得好"。代价:至少需要 24GB 显存的 GPU。
InternVL 2(上海 AI 实验室)
| 项目 | 详情 |
|---|---|
| 一句话 | 目前开源多模态的"天花板"之一 |
| 核心能力 | 图文深度理解、多图推理、OCR、文档分析、科学图表解读 |
| 参数 | 1B / 2B / 4B / 8B / 26B / 76B 多档可选 |
| FP16 显存 | 76B 需 ~150GB(多卡),8B 需 ~16GB |
| INT4 显存 | 76B 约 40GB,26B 约 16GB,8B 约 6GB |
| 协议 | MIT(随意商用) |
适合你如果: 你想做高质量的文档分析(合同、论文)、复杂图表解读、或者需要中文 OCR 的精度。中文能力在开源界名列前茅。
Qwen3-VL(阿里通义千问)⭐ 当前首选
| 项目 | 详情 |
|---|---|
| 一句话 | 阿里 Qwen 系列最强多模态,Dense + MoE 双架构,带 Visual Agent 能力 |
| 核心能力 | 图文理解、视频理解(原生256K上下文,可扩至1M,小时级视频)、32语言OCR、Visual Agent(操作PC/手机GUI)、2D+3D spatial grounding、数学推理、思维链推理(Thinking版) |
| 参数 | 2B / 4B / 8B / 32B(Dense),30B-A3B / 235B-A22B(MoE) |
| FP16 显存 | 235B 需多卡,32B 需 ~64GB,8B 需 ~16GB,2B 需 ~4GB |
| INT4 显存 | 32B 约 18GB,8B 约 5GB,2B 约 1.5GB |
| 协议 | Apache 2.0 |
适合你如果: 你想要当前最强的开源多模态体验。Visual Agent 能力是独一份------可以让模型直接操作你的电脑界面完成任务。从 2B(手机可跑)到 235B MoE(仅22B激活,多卡可跑),覆盖面无人能及。
CogVLM2(清华智谱)
| 项目 | 详情 |
|---|---|
| 一句话 | 用 "VIP 通道" 架构,视觉理解深度突出 |
| 核心能力 | 图文理解、多轮看图对话、详细描述、OCR |
| 参数 | 19B |
| FP16 显存 | ~40GB |
| INT4 显存 | ~12GB |
| 协议 | Apache 2.0 |
适合你如果: 你需要对图片的深度理解(不只是"图片里有什么",而是"图片里的场景意味着什么")。它的视觉细节捕捉在开源界名列前茅。
Qwen2.5-VL(阿里通义千问)
| 项目 | 详情 |
|---|---|
| 一句话 | Qwen2-VL 的全面升级版,数学和文档能力再上一个台阶 |
| 核心能力 | 动态分辨率、数学推理、文档解析、视频理解、grounding |
| 参数 | 7B / 72B |
| FP16 显存 | 72B 需 ~144GB,7B 需 ~14GB |
| INT4 显存 | 72B 约 40GB,7B 约 5GB |
| 协议 | Apache 2.0 |
适合你如果: 追求 Qwen 品质但硬件有限。虽然 Qwen3-VL 更强,但 Qwen2.5-VL 社区更成熟,部署踩坑少。追求最新 → Qwen3-VL;追求稳定 → Qwen2.5-VL。
Pixtral Large(Mistral AI)
| 项目 | 详情 |
|---|---|
| 一句话 | 法国 Mistral 的巨无霸,124B 参数的多模态猛兽 |
| 核心能力 | 图文理解、长上下文推理、函数调用、多语言 |
| 参数 | 124B |
| FP16 显存 | ~248GB(多卡) |
| INT4 显存 | ~70GB |
| 协议 | Mistral Research License(研究免费,商用需授权) |
说明: 这是为追求极致性能的团队准备的,普通用户用 Pixtral 12B(见第二梯队)更实际。
🥈 第二梯队(均衡实用):游戏本/中端台式的甜蜜点
这些模型在能力和硬件需求之间找到了精妙的平衡。16-24GB 显存足够跑,量化后 8-12GB 也能用。
Pixtral 12B(Mistral AI)
| 项目 | 详情 |
|---|---|
| 一句话 | 法国 Mistral 的首款多模态,指令遵循能力在 12B 级别领先 |
| 核心能力 | 图文理解、指令遵循(超越同级别 Qwen2-VL 和 LLaVA)、128K 上下文、多语言 |
| 参数 | 12B(解码器)+ 400M(视觉编码器) |
| FP16 显存 | ~26GB |
| INT4 显存 | ~8GB |
| 协议 | Apache 2.0 |
亮点: 指令遵循是它的杀手锏------你让它干什么它就干什么,不会自由发挥跑偏。对需要精确控制输出的场景(比如自动化文档处理)非常友好。
LLaVA-OneVision / LLaVA-NeXT
| 项目 | 详情 |
|---|---|
| 一句话 | 开源多模态的"常青树",社区最大、教程最多 |
| 核心能力 | 图文对话、多图理解、OCR、视频理解(OneVision-2.0 基于 Qwen3-8B) |
| 参数 | 7B / 8B / 13B / 34B |
| FP16 显存 | 34B 需 ~68GB,13B 需 ~26GB,7B 需 ~14GB |
| INT4 显存 | 13B 约 8GB,7B 约 4GB |
| 协议 | Apache 2.0 |
亮点: LLaVA-OneVision-2.0(2026 年 5 月发布,格灵深瞳基于 Qwen3-8B 打造)把视频理解成本降低了 87.5%。LLaVA 系列最大的优势是------遇到问题 Google 一下就有答案。入门首选。
Gemma 3/4(Google)
| 项目 | 详情 |
|---|---|
| 一句话 | Google 的开源多模态,140+ 语言,商业可用 |
| 核心能力 | 图文理解、视频输入、多语言(140+)、动态分辨率 |
| 参数 | Gemma 3: 4B/12B/27B;Gemma 4: 进一步升级 |
| FP16 显存 | 27B 需 ~54GB,12B 需 ~24GB,4B 需 ~8GB |
| INT4 显存 | 12B 约 7GB,4B 约 2.5GB |
| 协议 | Google 自有协议(允许负责任的商业使用) |
适合你如果: 你的使用场景是多语言(不只是中英文),或者你更信赖 Google 的品质。12B 版本在大多数家用 GPU 上都能畅快跑。
Ovis2(AIDC-AI)
| 项目 | 详情 |
|---|---|
| 一句话 | aimv2 视觉编码器 + Qwen2.5-32B 语言模型,精细视觉+复杂推理的交叉专家 |
| 核心能力 | 精细视觉理解、复杂语言推理、图文对齐 |
| 参数 | 基于 Qwen2.5-32B |
| FP16 显存 | ~64GB |
| INT4 显存 | ~18GB |
| 协议 | Apache 2.0 |
适合你如果: 你需要同时处理"看图要特别仔细"和"推理要特别复杂"的场景,比如分析医学影像并写出诊断推理过程。
DeepSeek-VL2
| 项目 | 详情 |
|---|---|
| 一句话 | "小钢炮"------参数不大但能力相当能打 |
| 核心能力 | 图文理解、OCR、图表分析,混合视觉编码器 |
| 参数 | 3B / 16B / 27B |
| FP16 显存 | 27B 需 ~54GB,16B 需 ~32GB,3B 需 ~6GB |
| INT4 显存 | 16B 约 10GB,3B 约 2GB |
| 协议 | MIT |
亮点: 3B 版本在手机和边缘设备上都能跑。DeepSeek 在训练数据质量上花了大力气,小参数的聪明程度经常让人惊讶。参数数量不是一切。 就像车的排量不如变速箱重要------3B 的 DeepSeek-VL2 在某些任务上能让 7B 的对手汗颜。
Yi-VL(零一万物)
| 项目 | 详情 |
|---|---|
| 一句话 | 李开复团队的力作,中文和英文双语能力均衡 |
| 核心能力 | 图文对话、中英双语、文档理解 |
| 参数 | 6B / 34B |
| FP16 显存 | 34B 需 ~68GB,6B 需 ~12GB |
| INT4 显存 | 34B 约 20GB,6B 约 4GB |
| 协议 | Apache 2.0 |
🥉 第三梯队(轻量便携):笔记本也能畅快跑
这类模型的设计哲学是"够用即可"。核显 8GB 的轻薄本,也能跑得动。
MiniCPM-V 4.6(面壁智能 & 清华)⭐ 端侧之王
| 项目 | 详情 |
|---|---|
| 一句话 | 仅 1.3B 参数,6GB 内存流畅跑,性能超越众多 7B+ 模型 |
| 核心能力 | 图文理解、高精度OCR(复杂文档/表格/公式)、视频理解、中英双语 |
| 参数 | 1.3B |
| FP16 显存 | ~3GB |
| INT4 显存 | ~1GB |
| 协议 | Apache 2.0(待确认) |
适合你如果: 你的设备是轻薄本、平板甚至手机,但你想用 AI 处理文档、识别图片。2026 年 5 月最新发布,Ollama 官方直接收录。端侧多模态的性价比之王。
Lance(字节跳动)⭐ 统一多模态新星
| 项目 | 详情 |
|---|---|
| 一句话 | 3B 原生统一多模态------同时支持理解、生成、编辑,图像+视频全覆盖 |
| 核心能力 | 图像理解+生成、视频理解+生成、跨模态编辑、多轮编辑一致性 |
| 参数 | 3B(激活参数) |
| FP16 显存 | ~40GB(原生架构显存需求较高) |
| INT4 显存 | 待确认 |
| 协议 | MIT |
适合你如果: 你想在一个模型里同时搞定"看图"和"做图"------比如让 AI 看懂你的设计稿然后帮你改图。128 张 A100 就能从头训练出来的统一模型,务实派的最爱。
MiniCPM-o 4.5(面壁智能 & 清华)
| 项目 | 详情 |
|---|---|
| 一句话 | 9B 全模态旗舰:视觉+语音+文本,支持实时语音对话和声音克隆 |
| 核心能力 | 实时语音对话、声音克隆、高帧率视频理解、30+语言OCR、图像理解 |
| 参数 | 9B |
| FP16 显存 | ~18GB |
| INT4 显存 | ~5GB |
| 协议 | 开源 |
适合你如果: 你不仅想让 AI 看图,还想跟它语音对话------比如"帮我看看这张菜单,哪些菜不含花生",直接说话不用打字。
Janus / Janus-Pro(DeepSeek)
| 项目 | 详情 |
|---|---|
| 一句话 | 一个模型既能理解图也能生成图,Janus-Pro 7B 文生图质量显著提升 |
| 核心能力 | 图文理解 + 图像生成(统一架构) |
| 参数 | Janus: 1.3B / Janus-Pro: 1B & 7B |
| FP16 显存 | 7B 需 ~14GB,1.3B 需 ~3GB |
| INT4 显存 | 7B 约 4GB,1.3B 约 1GB |
| 协议 | MIT |
亮点: 如果你想体验"统一多模态"------一个模型既当眼睛又当画笔------Janus 系列是最早做到这点的开源项目之一。与 Lance 相比,Lance 多了一个视频维度,而 Janus 更轻量。
Phi-4-multimodal(Microsoft)
| 项目 | 详情 |
|---|---|
| 一句话 | 微软的"三合一":语音+视觉+文字,手机上能流畅跑 |
| 核心能力 | 图文理解、OCR、语音识别与理解、128K 上下文 |
| 参数 | 5.6B |
| FP16 显存 | ~11GB |
| INT4 显存 | ~3.5GB |
| 协议 | MIT |
亮点: 语音+视觉+文字三合一,手机上流畅跑。你可以对着手机说"帮我看看这张购物小票一共多少钱"。
PaliGemma(Google)
| 项目 | 详情 |
|---|---|
| 一句话 | Google 的"专用工具"------细粒度视觉任务的专业选手 |
| 核心能力 | OCR、目标检测、图像描述、视觉问答 |
| 参数 | 3B |
| FP16 显存 | ~6GB |
| INT4 显存 | ~2GB |
| 协议 | Google 自有协议(研究友好,商用需确认) |
亮点: 如果你只需要做一件事------比如专门识别照片中的文字、专门做目标定位------PaliGemma 比全能模型更准更快。
📜 历史功勋(已不推荐新项目使用,但值得知道)
这些模型在开源多模态发展史上留下了浓重一笔,但今天有更好的替代选择。
-
MiniGPT-4(2023):证明了"语言模型 + 视觉编码器 + 对齐层"架构可行,影响了所有后来者
-
BLIP-2(Salesforce, 2023):Q-Former 桥接方案,工业界经典
-
LLaVA 1.5(2023):开源多模态的"Hello World",社区起点
第三章:你的显卡,决定了你的天花板
好了,模型介绍完了。接下来是最现实的问题:你的电脑能不能跑?
为什么显存这么重要?
先说个简单类比:显存就是你的厨房大小。 你要做的菜(模型)越大,需要的操作台(显存)就得越大。厨房不够大,菜就只能分批次做------结果就是慢到无法忍受。
当你加载一个模型时,它的所有权重 都要放进显存里。一个 7B 参数(70 亿个参数)的模型,如果用 FP16(每个参数占 2 字节)来存,光裸模型就要占 ~14GB 显存。再加上推理时的临时数据,实际需要 16-18GB。
量化是什么?降级食材但味道差不多
好在,有一个叫量化的技术。
继续用厨房类比:FP16 是用"完整菜谱"做菜------每种调料精确到克。INT8 量化 是把菜谱精简到"大勺、中勺、小勺"------精度降低了,但味道差不了太多。INT4 量化就更激进了------"放点盐、放点酱油"------有时候确实会翻车,但大多数情况能用。
在 AI 模型里,量化意味着把每个参数的精度从 16 位浮点数压缩到 8 位甚至 4 位整数。效果是:
-
一个需要 14GB 的 7B 模型,INT4 量化后只需要 ~4GB
-
代价是某些精细的理解能力会略微下降(大约 2-5%)
一句话总结:量化是用 2-5% 的精度损失,换 60-70% 的显存节省。 绝大多数家用场景下,这个交换是非常划算的。
你的设备能跑什么?
| 你的设备 | 典型显存 | FP16 能跑 | INT4 能跑 | 推荐模型 |
|---|---|---|---|---|
| 核显轻薄本(MacBook Air / 办公本) | 8GB 共享内存 | 1-3B | 3-8B | MiniCPM-V 4.6, Janus, Phi-4, Qwen3-VL-2B, DeepSeek-VL2-3B |
| MacBook Pro / 中端游戏本 | 16-24GB | 7-8B | 13-32B | Qwen3-VL-8B, LLaVA-13B, InternVL2-8B, Pixtral 12B, Gemma 3-12B |
| RTX 4090 / 高端工作站 | 24GB | 8-13B | 32B-72B | Qwen3-VL-32B(INT4), InternVL2-26B, DeepSeek-VL2-27B |
| 双卡/专业卡(A100/A6000) | 48-80GB | 32-72B | 235B(MoE) | Qwen3-VL-235B-A22B(MoE), InternVL2-76B |
重要提示: Apple Silicon(M1/M2/M3/M4)的 Mac 用户有额外优势------统一内存架构意味着可以把你的 RAM 当显存用。一台 32GB 内存的 MacBook Pro,理论上能跑需要 24GB 显存的模型。
第四章:三个预算,三套方案
如果你懒得看上面所有细节,这里直接给你"抄作业":
方案 A:零预算入门(核显轻薄本 / MacBook Air)
目标: 在你的日常电脑上体验"能看图的 AI",不花钱。
推荐组合:
-
主力模型:MiniCPM-V 4.6 (1.3B,端侧最强 OCR,~3GB)或 Qwen3-VL-2B(2B,最新架构,~4GB)
-
备选:Janus (1.3B,理解+生成,~3GB)或 Phi-4-multimodal(5.6B,支持语音,INT4 约 3.5GB)
体验预期: 日常看图、OCR、文档识别完全够用。MiniCPM-V 4.6 在复杂文档解析上尤其出色。
部署方式: 用 Ollama 或 LM Studio,五分钟搞定(见下一章)。
方案 B:进阶级(游戏本 / RTX 3070-4070 / MacBook Pro M2 Pro+)
目标: 获得接近商用模型(GPT-4V / Gemini)级别的多模态能力。
推荐组合:
-
主力模型:Qwen3-VL-8B (8B,最新架构+Visual Agent,INT4 约 5GB)或 Pixtral 12B(12B,指令遵循之王,INT4 约 8GB)
-
进阶:InternVL2-8B (8B,全能型经典,INT4 约 6GB)或 Gemma 3-12B(12B,多语言,INT4 约 7GB)
-
专业用途:CogVLM2(19B,理解深度突出,INT4 约 12GB)
体验预期: 日常看图、OCR、文档分析、多轮对话,体验接近商用模型(GPT-4V/Gemini 级别)。可以替代 ChatGPT Plus 的图片分析功能。
方案 C:专业级(RTX 4090 / 双卡 / 云 GPU)
目标: 达到当前开源多模态的天花板,追求极致质量。
推荐组合:
-
主力模型:Qwen3-VL-32B(32B,INT4 约 18GB,单卡 4090 可跑)------最新架构全能
-
视频理解:Qwen3-VL-32B (256K→1M 上下文)或 LLaVA-OneVision-2.0(基于 Qwen3-8B,成本极低)
-
极致质量:Qwen3-VL-235B-A22B (MoE 架构,仅 22B 激活,多卡 INT4 约 65GB)或 InternVL2-76B(多卡 INT4 约 40GB)
-
特殊需求:PaliGemma(细粒度视觉任务专用)
体验预期: 在大多数任务上接近或超越 GPT-4V(特别是在中文 OCR 和文档分析上)。Visual Agent 能力还能让模型替你操作电脑界面。方案 B 已经能满足 95% 的需求,方案 C 更适合性能极致追求者。
第五章:从下载到运行,15 分钟入门
说了一堆模型,你最关心的可能是:怎么装?怎么用?是不是要学 Python?
答案是:五分钟装好,十分钟跑起来。不需要写代码。
最简单的方案:Ollama(推荐)
Ollama 是一个"一键安装"的本地模型运行工具。类比:如果你用过 Steam 装游戏,Ollama 就是 AI 模型的 Steam。
第一步:安装 Ollama
-
去 ollama.com 下载对应版本(Mac / Windows / Linux)
-
双击安装,全程只需要点"下一步"
第二步:下载模型 打开终端(命令行),输入:
# 以 LLaVA 为例
ollama run llava:13b
# Qwen3-VL(推荐)
ollama run qwen3-vl:8b
# MiniCPM-V(端侧神器)
ollama run minicpm-v
# Llama 3.2 Vision
ollama run llama3.2-vision
它会自动下载模型(第一次需要等一会,取决于网速),然后直接进入对话。
第三步:发一张图片
# 在对话中,直接拖拽图片进去,或者输入图片路径
>>> 描述这张图片 [拖入图片]
就这么简单。
进阶方案:LM Studio
LM Studio 是一个带图形界面的本地模型管理工具。
-
下载安装 LM Studio
-
在搜索栏搜索你想要的多模态模型(比如 "qwen2-vl")
-
点击下载 → 点击加载 → 开始聊天
全程鼠标操作,完全不需要命令行。
备选方案:vLLM / SGLang(开发者用)
如果你是开发者,需要 API 接口来对接自己的应用:
# 安装 vLLM
pip install vllm
# 启动 API 服务
vllm serve llava-hf/llava-1.5-7b-hf --port 8000
之后就可以像调用 OpenAI API 一样调用本地模型了。
云 GPU 替代方案(如果本地硬件不够)
如果你想让更大的模型但本地跑不动,国内有一个很好的选择:
- AutoDL:学生价几块钱一小时,就能租到 RTX 3090/4090/A100。用法和本地部署差不多,只是跑在云端。适合短期体验和批量处理任务。
尾声:你的电脑,已经是 AI 工作站
回到文章开头那句话:
三年前,能看懂图片的 AI 需要几百万美元的服务器。一年前,需要一台顶配台式机。今天,你的 MacBook Air 就能跑一个。
这件事的意义,比"技术进步"大得多。
它意味着:AI 不再是大公司的特权。 你看图、分析文档、处理碎片化信息的自由,不需要付月费,不需要上传数据,不需要等排队。
差的从来不是硬件,而是挑选好货的眼光。
希望这篇买菜指南,帮你找到了配得上你锅的摊位。
附录:模型速查卡片
适合保存或转发。按"显存门槛"从低到高排列。
| 模型 | 参数 | 最低显存(INT4) | 中文能力 | 一句话定位 |
|---|---|---|---|---|
| MiniCPM-V 4.6 | 1.3B | ~1GB | ⭐优秀 | 端侧OCR之王,6GB内存流畅跑 |
| Janus / Janus-Pro | 1.3B/7B | ~1GB | 一般 | 理解+生成统一,MIT协议 |
| Qwen3-VL-2B | 2B | ~1.5GB | ⭐优秀 | 最新Qwen架构,手机可跑 |
| Phi-4-multimodal | 5.6B | ~3.5GB | 一般 | 语音+视觉+文字三合一 |
| Lance | 3B | 待确认 | 良好 | 字节出品,原生统一多模态 |
| DeepSeek-VL2-3B | 3B | ~2GB | 良好 | 小参数量里最能打的 |
| Qwen3-VL-8B | 8B | ~5GB | ⭐优秀 | Visual Agent加持的全能选手 |
| Pixtral 12B | 12B | ~8GB | 良好 | 指令遵循之王,Apache 2.0 |
| LLaVA-13B | 13B | ~8GB | 良好 | 社区最大、教程最多 |
| InternVL2-8B | 8B | ~6GB | ⭐优秀 | 8B里的经典全能冠军 |
| Gemma 3-12B | 12B | ~7GB | 一般 | 140+语言,Google出品 |
| CogVLM2 | 19B | ~12GB | 良好 | 视觉细节理解深度第一 |
| Qwen3-VL-32B | 32B | ~18GB | ⭐优秀 | 单卡4090能跑的最强多模态 |
| Qwen3-VL-235B-A22B | 235B(MoE) | ~65GB | ⭐优秀 | 开源多模态天花板,MoE架构 |
| InternVL2-76B | 76B | ~40GB | ⭐优秀 | 经典旗舰,MIT协议商用无忧 |
本文写于 2026 年 6 月。开源世界变化极快,建议收藏并在实际使用前核对模型的最新版本和部署方式。
如果你觉得这篇文章有用,欢迎分享给正在纠结"要不要买 ChatGPT Plus"的朋友。谁知道呢------他们可能已经在跑一个本地 AI 了。