Monkey OCR简单介绍

Alfred king2025-07-24 14:19

最近看论文看到一篇多模态大模型相关的，《MonkeyOCR: Document Parsing with a

Structure-Recognition-Relation Triplet Paradigm》是一种基于构造-识别-关系三元组范式的文档分析模型。

系统采用结构识别关系框架，包括结构检测，定位和分类语义区域;块级内容识别，并行提取每个区域的结构化信息;和关系预测，确定检测到的元素的逻辑阅读顺序。

无论是得分还是推理速度还是杠杠的，优于不少当前的模型，并且模型可以在3090上推理。

一个双栏13页的论文，一分钟OCR就将所有东西识别保存下来。

图片以及识别的内容均保存下来，并且公式可以以latex公式的出来