Monkey OCR简单介绍

前言

最近看论文看到一篇多模态大模型相关的,《MonkeyOCR: Document Parsing with a

Structure-Recognition-Relation Triplet Paradigm》是一种基于构造-识别-关系三元组范式的文档分析模型。

基本结构

系统采用结构识别关系框架,包括结构检测,定位和分类语义区域;块级内容识别,并行提取每个区域的结构化信息;和关系预测,确定检测到的元素的逻辑阅读顺序。

实验效果

无论是得分还是推理速度还是杠杠的,优于不少当前的模型,并且模型可以在3090上推理。

个人实验的效果

一个双栏13页的论文,一分钟OCR就将所有东西识别保存下来。

图片以及识别的内容均保存下来,并且公式可以以latex公式的出来