大模型 + 字形理解：Glyph-OCR 带来的 OCR 新范式

在大名鼎鼎的DeepSeek OCR工作发表同期，智谱AI也发表了一篇OCR相关的工作，对于DeekSeek而言，这篇风头被掩盖，属于学术界汪峰了😏，闲言少叙，下面正题：

这篇工作的侧重点和DeepSeek的工作还是有很大的不同的：让模型先"看懂字形"，再让语言模型推理文字本身。 GlyPh-OCR 更像是一次针对复杂字形的"硬解"。它把文字的"样子"编码下来，让模型真正理解笔画、结构、字体细节，再结合上下文恢复成最终文字。

下面将从技术原理、系统架构、优势、不足及应用场景几个方面，完整解读 GlyPh-OCR 的核心内容。

01 为什么需要 GlyPh-OCR？

传统 OCR 的核心流程通常是：

text 复制代码

图像 → CNN/ViT encode → CTC/Seq2Seq → 文本

问题在于，当图像质量不足时：

字模糊
分辨率低
字体变化大
结构不清晰

模型往往只能"猜"，而不是"看"。

GlyPh-OCR 的出发点非常简单：
如果模型能"看懂字形"，它就能更准确地识别文字。

就像人类一样：

我们不是靠"推断语境"来认字，而是先靠"看字形"。

GlyPh-OCR 正是把这件事系统化、工程化。

02 GlyPh-OCR 的核心思想：字形离散化（Glyph Tokens）

GlyPh-OCR 的最大创新点在于：

把每个字符的视觉信息离散化，转成可让 LLM 使用的 glyph tokens。

它不是直接给 LLM 喂图片，而是先把字符切出来，再转成一种类似"笔画结构向量"的离散 token。

这让模型真正看到的是：

字的轮廓
字的笔画方向
字的几何结构
字体风格

这种表示方式远比像素更具表达力。

类似于把字符压缩成一种"视觉字形语言"。

03 GlyPh-OCR 的三大关键模块

3.1 字符检测（Character Detection）

这一步负责：

找出图像中所有文字区域
定位每个字符框
为后续切割提供输入

这一模块类似传统检测模型（如 CRAFT、DBNet），但 GlyPh-OCR 可能做了字体友好的增强。

这是整个流程的第一步，同时也是最"非端到端"的地方。

3.2 字符切割（Character Segmentation）

检测完成后，把每个字符裁成小 patch。

切割要做到：

尽量不切到背景
尽量完整保留字形
在模糊情况下尽量保留笔画轮廓
这一阶段保证了后续 glyph encoder 的输入质量。

3.3 Glyph Encoder：字形离散化（关键创新）

这是 GlyPh-OCR 里最值得关注的部分。

它的任务是：

把一个字符图像 → 一个离散 token 或向量

类似：

复制代码

"永" → glyph_token_327
"字" → glyph_token_1024
"A"  → glyph_token_15

Glyph Token 的意义是：

降低 LLM 处理难度
提供稳定、鲁棒的"字形表示"
去除图像噪声影响
高度压缩视觉信息

本质上，这一步在做：

字符视觉 → 字形编码语言

从图像世界转换到符号世界。

3.4 LLM 字形理解与文本恢复（Glyph → Text）

最后由 LLM 来完成：

字形 → 字
字词修复
上下文语义推断
异体字 / 相似字 disambiguation

例如：

复制代码

glyph_token_218  glyph_token_553  glyph_token_1003
        ↓
"複"  "杂"   "性"

这让 GlyPh-OCR 具备很强的纠错能力：

字形稍微模糊也能恢复
字形近似但语境不同的字，LLM 可以 disambiguate
同字不同字体的差异也被统一成 token 空间

04 GlyPh-OCR 不是 End-to-End ------ 它是模块化的 OCR Pipeline

需要注意的是，很多人以为 GlyPh 是端到端模型，但其实不是。

它的整体流程是：

复制代码

detector → cropper → glyph encoder → LLM decoder

这是典型的"多阶段结构化 OCR pipeline"。

优点是模块可控、可解释；

缺点是链路较长，端到端优化难。

这一点与 DeepSeek-OCR 完全不同。

05 GlyPh-OCR 的优势

✔ 1. 模糊文字识别能力超强

得益于 glyph 表征：

小字体
抖动模糊
低分辨率
相机噪声

都能被更好地恢复。

✔ 2. 字形理解让模型更接近"看字"的过程，比像素编码更稳定。
✔ 3. 语言模型能做上下文纠错："形似但语义不符"的字可以被修正。
✔ 4. 对模型大小不敏感，即使小模型也有高性能。
✔ 5. 可解释性好，每个字符都有自己的 glyph token→ 非常适合可视化与调试。

06 GlyPh-OCR 的不足与限制

❌ 1. 非端到端，链路较长
❌ 2. 无法处理文档结构：表格/图表/公式/段落 layout
❌ 3. 无法做文档级理解：PDF → Markdown/HTML table 重建/图表 → 数据表/表格结构恢复
这些需要的是文档级语义模型，glyph 无法承担，但是DeepSeek OCR可以。

07 GlyPh-OCR 适合哪里？

✔ 扫描件
✔ 古籍识别
✔ 压缩图片、低清图片
✔ 异体字、手写体
✔ 小字体、模糊字体
✔ 需要可解释性强的场景

它是一条非常适合"字符识别本身"的技术路线。

08 总结

用一句话总结 GlyPh-OCR：

它不是"让模型理解文档"，而是"让模型看懂字形"。
它瞄准的是 OCR 的本源：字形识别。

如果你需要的是「把字认清楚」，Glyph-OCR 是非常优秀的方案。
如果你需要的是「把文档读明白」，则需要像 DeepSeek-OCR 这样的端到端多模态模型。
两者并不是竞争关系，而是：
GlyPh 解决"显微镜级"的字形问题，
DeepSeek-OCR 解决宏观结构化理解问题。

ref:
paper