【大模型 OCR】GLM-OCR 使用教程:从入门到部署

概述:

GLM-OCR 是智谱 AI 推出的一款轻量级、高性能的专业 OCR(光学字符识别)模型,参数仅 0.9B,却在多个文档理解基准测试中达到业界领先水平。它支持文本、表格、公式、手写体、多语言等多种复杂场景的识别,并提供灵活的部署方式,适用于从云端快速验证到本地高并发推理、再到边缘设备嵌入式运行的各类需求。

本教程将带你一步步掌握 GLM-OCR 的使用方法,涵盖 云端 API 调用 和 三种主流本地部署方案(Ollama / vLLM / SGLang),帮助你根据实际业务场景选择最适合的方式。

一、准备工作

  1. 注册账号并获取 API Key(仅云端 API 需要)
    访问 智谱 AI 开放平台
    登录或注册账号
    进入「API Keys」管理页面,创建一个新的 API 密钥

API-key 注册链接

二、方式一:云端 API 部署(最快上手)

适用场景:快速验证效果、小规模调用、无服务器运维能力。

步骤 1:安装 SDK

bash 复制代码
pip install zai-sdk

步骤 2:编写调用代码

python 复制代码
from zai import ZaiClient

# 初始化客户端
client = ZaiClient(api_key="your-api-key-here")

# 支持 URL 或 Base64 编码的图片/PDF
image_url='https://img0.baidu.com/it/u=2804101985,3835295807&fm=253&fmt=auto&app=138&f=JPEG?w=800&h=1119'


# 调用 GLM-OCR 布局解析接口
response = client.layout_parsing.create(
    model="glm-ocr",
    file=image_url
)

# 打印识别结果(默认为 Markdown 格式)
print(response.md_results)
python 复制代码
本地图片:
import base64
with open("invoice.jpg", "rb") as f:
    b64_data = base64.b64encode(f.read()).decode()
resp = client.layout_parsing.create(
    model="glm-ocr",
    file=f"data:image/jpeg;base64,{b64_data}"
)

print(response.md_results)

方式二:Ollama 一键部署(本地党福音)

python 复制代码
# 直接运行
ollama run glm-ocr

# 识别图片(拖拽图片到终端自动填充路径)
ollama run glm-ocr "Text Recognition: ./image.png"

方式三:vLLM 部署(生产环境推荐)

python 复制代码
# 安装 vLLM
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

# 安装 transformers(需要源码版本)
pip install git+https://github.com/huggingface/transformers.git

# 启动服务
vllm serve zai-org/GLM-OCR --allowed-local-media-path / --port 8080

开源与在线体验1.开源地址

Github:https://github.com/zai-org/GLM-OCR

Hugging Face:https://huggingface.co/zai-org/GLM-OCR

2.模型API智谱开放平台:

https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr

3.在线体验Z.ai

https://ocr.z.ai

相关推荐
Sour13 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
旗讯数字14 天前
旗讯 OCR 工业手写识别解决方案|破解车间纸质表单录入难题,加速生产数字化转型
大数据·ocr
XTIOT66614 天前
多形态护照 OCR 读取器传输机制、识别算法与行业落地技术对比
大数据·人工智能·嵌入式硬件·物联网·ocr
天天代码码天天14 天前
用 TensorRT 加速 PP-OCR:一套 C++ DLL + C# 调用的高性能 OCR 推理方案
c++·c#·ocr
2401_8856651914 天前
基于OpenCV的模板匹配OCR实战:银行卡与身份证数字识别完整教程
人工智能·python·opencv·计算机视觉·ocr
东集Seuic14 天前
食品标签新规 GB 7718-2025 倒计时:产线“首件检验”如何用东集小码哥CRUISE Ge2-M跑通 OCR 智能核对?
大数据·人工智能·ocr
小鹏linux15 天前
鸿蒙PC迁移:Tesseract OCR C++ 三方库鸿蒙适配全记录
c++·ocr·harmonyos
开开心心就好15 天前
自动生成小学数学题库支持导出Word
人工智能·安全·leetcode·贪心算法·ocr·音视频·语音识别
FL162386312916 天前
基于C#winform使用纯opencv部署ppocrv5和ppocrv6的onnx模型进行OCR文件检测识别
opencv·c#·ocr
AI人工智能+16 天前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取