PDF 中提取数学公式

DreamNotOver2025-04-09 12:06

✅ 方法一：使用 `doc2x extract_formula_imgs` + `Pix2Text` 一键运行脚本（自动提取+识别）

👉 适合你如果用 Python 的话，只需要运行一段脚本即可：

✅ 🔁 一步搞定脚本（仅需安装一次）

复制代码

pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple

🧠 然后运行这段代码即可完成整个流程：

复制代码

from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import os

pdf_path = "你的论文.pdf"
output_dir = "formulas"
extract_formula_imgs(pdf_path, output_dir, dpi=300)  # 步骤1：提取公式图像

p2t = Pix2Text()  # 步骤2：初始化模型

for fname in sorted(os.listdir(output_dir)):  # 步骤3：公式识别
    if fname.endswith(".png"):
        img_path = os.path.join(output_dir, fname)
        latex = p2t(Image.open(img_path))
        print(f"{fname} → {latex}")

✅ 方法二：纯命令行简化（适合写在 Shell 脚本里）

如果你不想写 Python 脚本，也可以直接用命令行运行：

doc2x extract-formula-imgs 你的论文.pdf --out-dir formula_imgs pix2text formula_imgs/*.png --out output.txt

这样你能直接把所有 LaTeX 结果写入 output.txt。

✅ 方法三：在线平台（无需安装，但受限）

若你不想安装环境，可以试试：

Mathpix Snip
- 免费额度有限，每天10~20张图
- 拍照或拖图片即可生成 LaTeX
KaTeX -- The fastest math typesetting library for the web
- 只适合展示，不适合识别

✅ 推荐组合方式（最快速+省心）

方式	特点	推荐人群
方法一（Python）	全自动、最灵活、可批量识别	研究人员，熟悉代码
方法二（命令行）	零代码配置，更直观	教师、工程师、懒得写脚本
方法三（在线）	零配置，适合小量公式	仅偶尔处理，数量少的人