一、模型介绍
GLM-4.1V-9B-Thinking是由智谱AI联合清华大学团队推出的多模态大模型,以GLM-4-9B-0414基座模型为底,通过引入"思维链推理机制"和"课程采样强化学习策略"(Reinforcement Learning with Curriculum Sampling),显著提升了模型的跨模态推理能力与稳定性。在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力。
该模型支持长上下文输入,具备处理图像、视频、文本等多种模态的能力,适用于教育、科研、工业和政务等多个领域。在28项测评任务中有23项达到10B级别模型最佳,其中18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。
GLM-4.1V-9B-Thinking标志着智谱GLM系列模型从感知向认知阶段的跃迁,在突破了小模型的性能极限下,也作出如下创新:
1.在深度推理领域表现卓越,支持图像、视频、文档等多模态输入。
2.作为参数模型仅为9B的模型,在部分高难度任务中,模型表现可以媲美GPT-4o。
3.模型开源,还提供了坚实的GLM-4.1V-9B-Base模型,利于研究者们的二次开放与创新。
二、模型部署
基础环境最低配置推荐
环境名称 | 版本信息 |
---|---|
Ubuntu | 22.04.4 LTS |
Python | 3.12.4 |
CUDA | 12.6 |
NVIDIA Corporation | RTX 4090 * 2 |
注:推荐pytorch 2.7.1
1.更新基础软件包、配置镜像源
查看系统版本信息
bash
#查看系统的版本信息,包括 ID(如 ubuntu、centos 等)、版本号、名称、版本号 ID 等
cat /etc/os-release

更新软件包列表
csharp
#更新软件列表
apt-get update

配置国内镜像源(阿里云)
具体而言,vim指令编辑文件 sources.list
bash
#编辑源列表文件
vim /etc/apt/sources.list

按 "i"
进入编辑模式,将如下内容插入至 sources.list
文件中
arduino
deb http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse
最后,按 "esc"
键退出编辑模式,输入 :wq
命令并按下 "enter"
键便可保存并退出 sources.list
文件

2.虚拟环境创建
进入pytorch官网(Get Started)
找到从本地开始(Start Locally)------>PyTorch Build(Stable 2.7.1)------>Your OS(Windows)------>Packge(Pip)------>Language(Python)------>Compule Platform(CUDA 12.6)

复制所框选"命令行"后,转入至终端中粘贴执行安装
创建虚拟环境
ini
#创建名为GLM-Thking的虚拟环境,python版本:3.12
conda create -n GLM-Thking python=3.12
激活虚拟环境
#激活
conda activate GLM-Thking
3.克隆项目
进入文件夹GLM-4.1V-9B-Thinking
bash
cd /root/sj-tmp/GLM-4.1V-9B-Thinking/

从github官网中克隆存储库
bash
#克隆存储库
git clone https://github.com/THUDM/GLM-4.1V-Thinking.git

4.下载依赖
requirements.txt文件
pip install -r requirements.txt

5.模型下载
转到魔塔社区官网下载模型文件:GLM-4.1V-9B-Thinking · 模型库

使用命令行下载完整模型库
bash
#在下载前,请先通过如下命令安装
pip install modelscope
#命令行下载
modelscope download --model ZhipuAI/GLM-4.1V-9B-Thinking


6.模型推理及webUI启动
模型推理代码均在 inference
文件夹中
(1)执行命令行交互脚本 trans_infer_cli.py
便可进行连续对话
arduino
python trans_infer_cli.py --model_path '/root/sj-tmp/GLM-4.1V-9B-Thinking/'

(2)执行Gradio 界面脚本 trans_infer_gradio.py
便可搭建一个可以直接使用的 Web 界面
python trans_infer_gradio.py
若遇到端口被占用的问题,可通过如下命令解决:
bash
#查看端口号进程
lsof -i :<端口号>
#强制退出进程
kill -9 <API>


(3)web页面图像推理

(4)web页面视频推理
