第一次用 Ollama 跑视觉模型:Qwen2.5-VL 7B 给了我一个意外惊喜

前几天在 Mac 上安装了 Ollama,并下载了 Qwen2.5-VL 7B 做了一些测试,整个过程还挺有意思,分享给大家。

1 Mac 安装 Ollama

进入 Ollama 官网 ,我的电脑是 Mac Studio ,所以选择 MacOS 下载 。

下载完成后,双击安装 ,安装完成后界面如下图:

2 下载 Qwen 2.5 VL 7B

Qwen 2.5-VL 是阿里巴巴通义千问团队开发的一款开源的旗舰级视觉语言模型。

它能够处理文本、图像和视频,并具备强大的视觉理解和交互能力。该模型有不同参数规模(如 3B、7B 和 72B),适用于从边缘 AI 到高性能计算的多种场景 。

下载 Qwen 2.5 VL 有两种方式 :

1、通过命令行请求

复制代码
ollama pull qwen2.5vl:7b

2、通过 Ollama GUI 界面安装

在 GUI 界面选择模型 ,若未下载会显示下载图标,然后在对话框中输入任意文本即可自动下载。

3 文本/图片体验

下载完模型后,即可在对话框中进行对话。

当然我们也可以通过 ollama 启动模型后展开对话:

arduino 复制代码
ollama run qwen2.5vl:7b

接下来,进行图片检测,图片如下:

检测结果:

我们也可以通过该模型识别图像中的文字、公式或抽取票据、证件、表单中的信息,支持格式化输出文本:

4 程序调用分析图片

我们也可以编写 python 调用 Ollama 接口,同样是分析图片:

同样,Ollama 也支持兼容 OpenAI 的接口协议 ,可以实现流式对话,见下图:

vbnet 复制代码
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5vl:7b",
  "messages": [
    { "role": "user", "content": "写一段代码" }
  ]
}'

效果见下图 :

5 总结

Qwen 2.5-VL 7B 简直就是"本地视觉小钢炮",各种图像信息都能一把抓,无论给它截图、票据、图表还是复杂场景,它都能有所作为。

笔者认为它尤其适合在如下场景中发挥作用:

  • 文档和票据解析:发票、合同、报表、扫描件,一次推理即可提取文字并生成结构化数据
  • 表格与图表解析:财务报表、统计图表,快速提取表头和数据,方便后续分析
  • 图片场景理解:仓库、机房、办公室等照片,自动识别物体和整体场景
  • 多模态问答:结合图片和文本内容回答问题,支持科研、教育或产品原型
  • 内容审核与合规检测:识别敏感文字或违规图像,本地部署保护隐私
相关推荐
uzong4 小时前
程序员从大厂回重庆工作一年
java·后端·面试
码事漫谈7 小时前
【精华】C++成员初始化列表完全指南:为什么、何时以及如何正确使用
后端
码事漫谈7 小时前
C++ 强制类型转换:类型安全的多维工具
后端
RainbowSea9 小时前
github 仓库主页美化定制
后端
RainbowSea9 小时前
从 Spring Boot 2.x 到 3.5.x + JDK21:一次完整的生产环境迁移实战
java·spring boot·后端
笨手笨脚の9 小时前
Spring Core常见错误及解决方案
java·后端·spring
计算机毕设匠心工作室9 小时前
【python大数据毕设实战】全球大学排名数据可视化分析系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习、实战教学
后端·python·mysql
VX:Fegn08959 小时前
计算机毕业设计|基于Java人力资源管理系统(源码+数据库+文档)
java·开发语言·数据库·vue.js·spring boot·后端·课程设计
荔枝hu10 小时前
springboot和shiro组合引入SseEmitter的一些坑
java·spring boot·后端·sseeitter
老华带你飞10 小时前
健身房|基于springboot + vue健身房管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端