第一次用 Ollama 跑视觉模型：Qwen2.5-VL 7B 给了我一个意外惊喜

前几天在 Mac 上安装了 Ollama，并下载了 Qwen2.5-VL 7B 做了一些测试，整个过程还挺有意思，分享给大家。

1 Mac 安装 Ollama

进入 Ollama 官网，我的电脑是 Mac Studio ，所以选择 MacOS 下载。

下载完成后，双击安装，安装完成后界面如下图：

Qwen 2.5-VL 是阿里巴巴通义千问团队开发的一款开源的旗舰级视觉语言模型。

它能够处理文本、图像和视频，并具备强大的视觉理解和交互能力。该模型有不同参数规模（如 3B、7B 和 72B），适用于从边缘 AI 到高性能计算的多种场景。

下载 Qwen 2.5 VL 有两种方式：

1、通过命令行请求

复制代码

ollama pull qwen2.5vl:7b

2、通过 Ollama GUI 界面安装

在 GUI 界面选择模型，若未下载会显示下载图标，然后在对话框中输入任意文本即可自动下载。

下载完模型后，即可在对话框中进行对话。

当然我们也可以通过 ollama 启动模型后展开对话：

arduino 复制代码

ollama run qwen2.5vl:7b

接下来，进行图片检测，图片如下：

检测结果：

我们也可以通过该模型识别图像中的文字、公式或抽取票据、证件、表单中的信息，支持格式化输出文本：

我们也可以编写 python 调用 Ollama 接口，同样是分析图片：

同样，Ollama 也支持兼容 OpenAI 的接口协议，可以实现流式对话，见下图：

vbnet 复制代码

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5vl:7b",
  "messages": [
    { "role": "user", "content": "写一段代码" }
  ]
}'

效果见下图：

Qwen 2.5-VL 7B 简直就是"本地视觉小钢炮"，各种图像信息都能一把抓，无论给它截图、票据、图表还是复杂场景，它都能有所作为。

笔者认为它尤其适合在如下场景中发挥作用：