LaTeX OCR - 数学公式识别系统

文章目录


一、关于 LaTeX OCR

1、项目概览

基于 Seq2Seq + Attention + Beam Search 架构的数学公式识别系统,可将数学公式图片转换为 LaTeX 代码。


架构图


2、相关链接资源


3、功能特性

1、多平台支持

  • 支持 Linux/Mac/Windows 系统
  • 提供一键安装脚本

2、可视化训练

  • 集成 TensorBoard 训练过程可视化
  • 支持注意力机制可视化

3、评估指标

  • 支持 perplexity/EditDistance/BLEU-4/ExactMatchScore 四种评估指标

二、安装配置

基础环境要求

  1. Python 3.5 + TensorFlow 1.12.2
  2. LaTeX (latex 转 pdf)
  3. Ghostscript (图片处理)
  4. ImageMagick (pdf 转 png)

Linux 安装

一键安装

shell 复制代码
make install-linux

或分步安装

bash 复制代码
# 创建环境 
virtualenv env35 --python=python3.5
source env35/bin/activate
pip install -r requirements.txt

# 安装 latex (latex 转 pdf)
sudo apt-get install texlive-latex-base texlive-latex-extra

# 安装 ghostscript
sudo apt-get update && sudo apt-get install ghostscript libgs-dev

# 安装 magick (pdf 转 png)
wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*
./configure --with-gslib=yes
make
sudo make install
sudo ldconfig /usr/local/lib
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

Mac 安装

一键安装

shell 复制代码
make install-mac

分步安装

bash 复制代码
sudo pip install -r requirements.txt
wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*
./configure --with-gslib=yes
make
sudo make install
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

三、使用指南

1、快速训练(小数据集)

一键训练(约2分钟)

shell 复制代码
make small

分步执行

bash 复制代码
python build.py --data=configs/data_small.json --vocab=configs/vocab_small.json
python train.py --data=configs/data_small.json --vocab=configs/vocab_small.json --training=configs/training_small.json --model=configs/model.json --output=results/small/
python evaluate_txt.py --results=results/small/
python evaluate_img.py --results=results/small/

2、完整训练(大数据集)

一键训练(2-3小时)

shell 复制代码
make full

分步执行

bash 复制代码
python build.py --data=configs/data.json --vocab=configs/vocab.json
python train.py --data=configs/data.json --vocab=configs/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/
python evaluate_txt.py --results=results/full/
python evaluate_img.py --results=results/full/

四、可视化功能

训练过程可视化

bash 复制代码
# 小数据集
cd results/small
tensorboard --logdir ./

# 大数据集
cd results/full
tensorboard --logdir ./

预测过程可视化

bash 复制代码
python visualize_attention.py --image=data/images_test/6.png --vocab=configs/vocab.json --model=configs/model.json --output=results/full/

五、模型评估

指标 训练分数 测试分数
perplexity 1.39 1.44
EditDistance 81.68 80.45
BLEU-4 78.21 75.42
ExactMatchScore 13.93 12.44

六、技术细节

数据处理流程

  1. 获取 LaTeX 公式数据
  2. 公式规范化处理
  3. 生成图片数据集
  4. 构建字典和映射文件

模型架构

  • Encoder: CNN
  • Decoder: LSTM/GRU
  • 注意力机制层
  • Beam Search/Greedy 输出策略

伊织 xAI 2025-05-18(日)

相关推荐
MeixianAgent17 小时前
Python 回测数据入口怎么验?历史 K 线入库前先做 5 个检查
后端·python
咕白m62520 小时前
用 Python 实现一键批量查找与替换 Excel 数据
后端·python
doiito1 天前
【Agent Harness】Gliding Horse L2 作战地图深度优化:给多 Agent 上下文装上“精准导航”
ai·rust·架构设计·系统设计·ai agent
SelectDB2 天前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
妙妙屋(zy)2 天前
Claude Code+CC-Switch+CC-Connect+飞书使用教程
ai
小七-七牛开发者2 天前
Coding Agent 规则管理:CLAUDE.md、Skills、Hooks、Subagents 到底怎么选?
ai·大模型·agent·claude·token·loop·mcp·claudecode·ai coding
荣码2 天前
GraphRAG:普通RAG只能回答"点"的问题,我踩了4个坑才搞懂
java·python
doiito2 天前
左脚踩右脚:让 LLM 自进化的 Agent 轨迹训练法——为什么它能补上主流范式的最后一块拼图
ai·系统设计
带刺的坐椅2 天前
从 Claude Code 隐私争议,看 SolonCode 的设计选择
ai·llm·agent·claudecode·soloncode·codingplan
金銀銅鐵2 天前
[Python] 基于欧几里得算法,实现分数约分计算器
python·数学