OCR技术难点解读：数学公式检测与识别

文档解析中的数学表达式检测与识别（Mathematical Expression Detection and Recognition, MEDR）是自然语言处理和计算机视觉交叉领域的重要技术，目的在于从文档中定位并解析数学公式，将其转化为结构化表示（如LaTeX、MathML等）。

文档中的数学表达式分为显示式（与普通文本分开）和内联式（嵌入文本行中）两种形式。显示式数学表达式更容易通过文档布局分析进行识别，而内联式数学表达式由于其与普通文本的接近性，需要专门的检测技术。

公式识别的核心技术步骤主要包括：

检测（Detection）：定位文档中数学表达式的区域，区分文本、表格与公式。

方法：传统图像处理方法（边缘检测、连通域分析）或基于深度学习的目标检测模型。

识别（Recognition）：将检测到的数学表达式（图像或手写体）转换为机器可读的符号化表示。

文本类公式：通过OCR技术结合LaTeX语法解析。
图像类公式：结合图像分割与符号识别模型进行解析。

为什么要攻克公式解析难题？

在教育、科研等领域，数学表达式的应用相当常见。当文本OCR技术逐渐成熟，公式识别成为将这类文档转化成结构化可用数据的关卡。以下是两个常见场景：

教育智能化

在K12及高等教育中，学生作业、试卷中存在大量手写或印刷公式。传统教学中，作业与试卷一般需要教师进行人工批改。随着公式识别的准确率提升，更多智能化应用开始落地。

例如，基于MEDR技术，智能批改系统可自动识别学生答题步骤中的公式，结合符号语义分析错误逻辑（如符号误用、运算优先级错误），自动批改，并生成针对性反馈。在搜题软件中，学生也可以拍照上传错题，获得详解辅导。电子化笔记整理也是应用场景之一，MEDR技术能够辅助完成笔记、板书等内容从图片到可编辑格式的转化，避免耗时手打工作。

同时，教育服务机构也开始将教科书、教辅、试卷等资料转化为结构化数据，组成完善题库，并根据学生需要，提供针对性训练。

学术与科研

科研论文中经常包含复杂公式，其解析准确度决定了知识库质量，以及下游AI应用能否灵活调用有效信息。

另外，科研人员有时需要在论文库中搜索特定公式，但传统文本检索无法识别公式图像。MEDR技术可将论文中的公式转换为LaTeX或MathML代码，帮助学术平台构建可搜索的公式数据库，方便定位相关论文，加速文献调研。

MEDR技术发展

数学表达式检测与识别（MEDR）技术经历了从基于规则到数据驱动的转变。早期方法主要依赖于预定义的规则或文档布局分析来进行数学表达式的检测。随着深度学习的发展，数学表达式检测逐渐采用了类似目标检测的方法来处理文档图像中的数学表达式。

目前的MEDR利用深度学习模型，通过边界框定位或实例分割技术，精确地识别并分离出文档中的数学表达式区域，强化了对复杂和多样的数学表达式结构的处理能力。

数学表达式检测（MED）

早期的数学表达式检测（MED）利用CNN进行定位。研究者尝试采用结合了CNN和传统手动特征提取的方法来生成边界框，或使用循环神经网络（RNN）处理字符序列[1, 2, 3]，早期方法还不能实现完全端到端的检测，限制了其泛化能力和性能表现。

随着技术的发展，通用目标检测算法被改编用于MED，包括单阶段和两阶段方法：单阶段检测器如DS-YOLOv5 通过引入可变形卷积和多尺度架构提高了精度和速度[4]；SSD则采用滑动窗口策略加速了尺度不变检测[5]。2021年，ICDAR竞赛展示了广义焦点损失（GFL）等进展，解决了类别不平衡问题，并通过特征金字塔网络提升了数学表达式的检测能力。两阶段检测器，尤其是R-CNN变体以一定程度上牺牲计算速度为代价提高了检测精度[6]，而Faster R-CNN和Mask R-CNN通过区域提议网络（RPN）进一步优化提高性能[7, 8]。

实例分割算法与MED高度契合，能够有效管理非线性和密集的数学表达式配置。Mask R-CNN在其框架中引入像素掩码预测，显著增强了区域识别能力[9]。通过增强语义定位和整合检测与分割任务，PANet和混合任务级联（HTC）进一步改进了这些方法[10, 11]。2024年，FormulaDet将MED框架视为实体和关系提取问题，利用上下文和布局感知网络，在理解复杂公式结构方面取得了显著进展[12]。

数学表达式识别（MER）

数学表达式识别（MER）模型通常采用编码器-解码器架构，将图像中的视觉信息转换为结构化的格式，例如LaTeX。这些模型主要依赖基于CNN的编码器，近年来也开始整合基于Transformer的编码器以提升性能。在解码器方面，RNN和Transformer架构被广泛应用，许多改进措施进一步提高了模型的准确性和效率。

MER编码器的任务是从数学表达式的图像中提取有意义的特征，从而捕捉数学表达式的复杂性。传统的CNN因为擅长捕捉局部特征而被广泛使用，但在处理多尺度和复杂的数学表达式时常常面临挑战。为了克服这些问题，研究者引入了密集卷积架构和多方向扫描技术，来更好地捕捉空间依赖性。

卷积方法：DenseNet和ResNet等多样化的卷积架构被提出用于改进MER的特征提取[13, 14]，后续研究者通过在CNN中增加RNN或位置编码，增强了对数学表达式结构的空间和上下文理解能力[15, 16]。
Transformer编码器：鉴于CNN在处理长距离依赖关系方面的局限性，较新的模型利用基于视觉的Transformer，如Swin Transformer，通过自注意力机制提供了更强大的全局上下文管理能力，特别适用于处理复杂的数学表达式[17]。

在解码阶段，MER系统与OCR一样采用RNN和Transformer架构来处理序列数据。基于RNN的解码器通过增强的注意力机制生成与输入图像相对应的符号序列，在处理嵌套和分层表达式时表现出色。研究者通过引入门控循环单元（GRU）和注意力机制设计模型，实现了资源高效的处理方式，应对复杂数学表达式的挑战。此外，树结构和基于Transformer的解码器解决了梯度消失和计算开销的问题，从而增强了模型对各种公式符号的鲁棒性[18, 19]。

TextIn技术方案

近年来，主流方法通常将ME视为具有树结构的对象，由序列解码器或树解码器建模。这些解码器以深度优先顺序识别ME中的符号和符号之间的关系，导致解码步骤很长，这可能会损害其性能，特别是对于结构复杂的ME来说。TextIn技术团队提出了一种新的基于树的模型，具有HMER的分支并行解码，该模型通过明确预测符号之间的关系来解析ME树的结构。此外，还提出了一个查询构造模块来帮助解码器并行解码ME树的分支，从而减少解码时间步骤的数量，并缓解长序列注意解码的问题，从而提高识别性能。

⭐欢迎后台私信小助手，在线体验最新的公式识别技术！

还可来交流群与我们共同探讨技术发展与AI应用的可能性，更多福利、大模型应用技术学习材料等你领取！

参考文献：
$1\] Liangcai Gao, Xiaohan Yi, Yuan Liao, Zhuoren Jiang, Zuoyu Yan, and Zhi Tang. A deep learning-based formula detection method for pdf documents. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 553--558. IEEE, 2017. \[2\] Xiaohan Yi, Liangcai Gao, Yuan Liao, Xiaode Zhang, Runtao Liu, and Zhuoren Jiang. Cnn based page object detection in document images. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 230--235. IEEE, 2017. \[3\] Xiao-Hui Li, Fei Yin, and Cheng-Lin Liu. Page object detection from pdf document images by deep structured prediction and supervised clustering. In 2018 24th International Conference on Pattern Recognition (ICPR), pages 3627--3632. IEEE, 2018. \[4\] Minh-Thang Nguyen, Thi-Lan Le, Lan Huong Nguyen Thi, and Thu Ha Nguyen. Ds-yolov5: Deformable and scalable yolov5 for mathematical formula detection in scientific documents. In 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pages 1--6. IEEE, 2021. \[5\] Parag Mali, Puneeth Kukkadapu, Mahshad Mahdavi, and Richard Zanibbi. Scanssd: Scanning single shot detector for mathematical formulas in pdf document images. arXiv preprint arXiv:2003.08005, 2020. \[6\] Junaid Younas, Syed Tahseen Raza Rizvi, Muhammad Imran Malik, Faisal Shafait, Paul Lukowicz, and Sheraz Ahmed. Ffd: Figure and formula detection from document images. In 2019 Digital Image Computing: Techniques and Applications (DICTA), pages 1--7. IEEE, 2019. \[7\] Tai Wang, Xinge Zhu, Jiangmiao Pang, and Dahua Lin. Fcos3d: Fully convolutional one-stage monocular 3d object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 913--922, 2021. \[8\] Xinlei Chen, Ross Girshick, Kaiming He, and Piotr Dollár. Tensormask: A foundation for dense object segmentation. In Proceedings of the IEEE/CVF international conference on computer vision, pages 2061--2069, 2019. \[9\] Jian-Hua Shu, Fu-Dong Nian, Ming-Hui Yu, and Xu Li. An improved mask r-cnn model for multiorgan segmentation. Mathematical Problems in Engineering, 2020(1):8351725, 2020. \[10\] Miao Hu, Yali Li, Lu Fang, and Shengjin Wang. A2-fpn: Attention aggregation based feature pyramid network for instance segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 15343--15352, 2021. \[11\] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, et al. Hybrid task cascade for instance segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4974--4983, 2019. \[12\] Kai Hu, Zhuoyao Zhong, Lei Sun, and Qiang Huo. Mathematical formula detection in document images: A new dataset and a new approach. Pattern Recognition, 148:110212, 2024. \[13\] Jianshu Zhang, Jun Du, and Lirong Dai. Multi-scale attention with dense encoder for handwritten mathematical expression recognition. In 2018 24th international conference on pattern recognition (ICPR), pages 2245--2250. IEEE, 2018. \[14\] Zhe Li, Lianwen Jin, Songxuan Lai, and Yecheng Zhu. Improving attention-based handwritten mathematical expression recognition with scale augmentation and drop attention. In 2020 17th International Conference on Frontiers in Handwriting Recognition (ICFHR), pages 175--180. IEEE, 2020. \[15\] Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, and Alexander M Rush. Image-to-markup generation with coarse-to-fine attention. In International Conference on Machine Learning, pages 980--989. PMLR, 2017. \[16\] Anh Duc Le, Bipin Indurkhya, and Masaki Nakagawa. Pattern generation strategies for improving recognition of handwritten mathematical expressions. Pattern Recognition Letters, 128:255--262, 2019. \[17\] Bin Wang, Zhuangcheng Gu, Chao Xu, Bo Zhang, Botian Shi, and Conghui He. Unimernet: A universal network for real-world mathematical expression recognition. arXiv preprint arXiv:2404.15254, 2024. \[18\] Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, and Ziyin Zhang. Handwritten mathematical expression recognition with bidirectionally trained transformer. In Document analysis and recognition--ICDAR 2021: 16th international conference, Lausanne, Switzerland, September 5--10, 2021, proceedings, part II 16, pages 570--584. Springer, 2021. \[19\] Wenqi Zhao and Liangcai Gao. Comer: Modeling coverage for transformer-based handwritten mathematical expression recognition. In European conference on computer vision, pages 392--408. Springer, 2022.$