智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

智谱AI 正式开源发布 GLM-OCR ,这款参数量仅 0.9B 的模型以 "小尺寸、高精度" 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中,它以 94.6 的高分超越多款同类模型,展现了在手写公式、多语混排及印章识别等 复杂文档 场景下的统治级能力,为行业提供了高效的专业级OCR解决方案。

核心能力与技术架构

GLM-OCR 采用独特的 "编码器 - 解码器" 架构,通过极致的参数效率实现了性能与成本的双重突破。

智谱 AI 正式开源发布 GLM-OCR,这款参数量仅 0.9B 的模型以 "小尺寸、高精度" 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中,它以 94.6 的高分超越多款同类模型,展现了在手写公式、多语混排及印章识别等 复杂文档 场景下的统治级能力,为行业提供了高效的专业级 OCR 解决方案。

关键技术指标

轻量部署:总参数量仅 0.9B,完美支持 vLLM、SGLang 和 Ollama 等主流推理框架,大幅降低了部署门槛。

SOTA性能:在 OmniDocBench V1.5 综合评测中斩获 94.6 分,在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异,性能接近 Gemini-3-Pro(据公开报道)。

极致速度:在同等硬件条件下(单副本单并发),PDF 文档处理吞吐量达 1.86 页/秒,图片处理达 0.67 张/秒。

颠覆性成本:API 调用输入输出同价,仅需 0.2 元/百万 Tokens。1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF,成本仅为传统 OCR 方案的 1/10。

典型场景与落地效果

针对传统 OCR 难以处理的 "硬骨头",GLM-OCR 进行了深度优化,在多种极端场景下实现了突破。

手写体与公式: 模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度,有效解决了科研与教育场景的痛点。

复杂表格解析: 面对跨页、跨单元格及多层表头的复杂表格,GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码,极大提升了数据录入与转换效率。

票据与卡证提取: 支持从各类非结构化票据中智能提取关键字段,并直接输出结构化的 JSON 数据,适配银行、保险及物流系统的自动化需求。

RAG支撑: 其高精度的识别能力与规整的 Markdown/JSON 输出格式,为检索增强生成(RAG)系统提供了高质量的数据底座。

行业应用与接入

GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。

在接入方面,智谱提供了灵活的 API 调用方式与批量处理工具。相比传统人工录入或昂贵的专用软件,GLM-OCR 将文档处理成本降低至 "白菜价"(1 元可处理海量文档)。未来,团队还将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频 OCR 领域。

小编总结

GLM-OCR 以 "小尺寸、高精度" 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性,叠加极低的部署成本与开放 API,正在推动文档解析技术从单一的 "工具" 向行业通用的 "基础设施" 演进。

文章来源:AITOP100,原文地址:https://www.aitop100.cn/infomation/details/33259.html

相关推荐
China_Yanhy2 小时前
动手学大模型第一篇学习总结
人工智能
空间机器人2 小时前
自动驾驶 ADAS 器件选型:算力只是门票,系统才是生死线
人工智能·机器学习·自动驾驶
C+++Python2 小时前
提示词、Agent、MCP、Skill 到底是什么?
人工智能
小松要进步2 小时前
机器学习1
人工智能·机器学习
泰恒3 小时前
openclaw近期怎么样了?
人工智能·深度学习·机器学习
KaneLogger3 小时前
从传统笔记到 LLM 驱动的结构化 Wiki
人工智能·程序员·架构
烟锁池塘柳03 小时前
一文读懂UGC、PGC、PUGC、OGC、MGC、BGC与AIGC
aigc
tinygone3 小时前
OpenClaw之Memory配置成本地模式,Ubuntu+CUDA+cuDNN+llama.cpp
人工智能·ubuntu·llama
建行一世3 小时前
【Windows笔记本大模型“傻瓜式”教程】使用LLaMA-Factory工具来完成对Windows笔记本大模型Qwen2.5-3B-Instruct微调
windows·ai·语言模型·llama
正在走向自律3 小时前
第二章-AIGC入门-AIGC工具全解析:技术控的效率神器,DeepSeek国产大模型的骄傲(8/36)
人工智能·chatgpt·aigc·可灵·deepseek·即梦·阿里通义千问