✅ 方法一:使用 doc2x extract_formula_imgs
+ Pix2Text
一键运行脚本(自动提取+识别)
👉 适合你如果用 Python 的话,只需要运行一段脚本即可:
✅ 🔁 一步搞定脚本(仅需安装一次)
pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple
🧠 然后运行这段代码即可完成整个流程:
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import os
pdf_path = "你的论文.pdf"
output_dir = "formulas"
extract_formula_imgs(pdf_path, output_dir, dpi=300) # 步骤1:提取公式图像
p2t = Pix2Text() # 步骤2:初始化模型
for fname in sorted(os.listdir(output_dir)): # 步骤3:公式识别
if fname.endswith(".png"):
img_path = os.path.join(output_dir, fname)
latex = p2t(Image.open(img_path))
print(f"{fname} → {latex}")
✅ 方法二:纯命令行简化(适合写在 Shell 脚本里)
如果你不想写 Python 脚本,也可以直接用命令行运行:
doc2x extract-formula-imgs 你的论文.pdf --out-dir formula_imgs pix2text formula_imgs/*.png --out output.txt
这样你能直接把所有 LaTeX 结果写入 output.txt
。
✅ 方法三:在线平台(无需安装,但受限)
若你不想安装环境,可以试试:
-
-
免费额度有限,每天10~20张图
-
拍照或拖图片即可生成 LaTeX
-
-
KaTeX -- The fastest math typesetting library for the web
- 只适合展示,不适合识别
✅ 推荐组合方式(最快速+省心)
方式 | 特点 | 推荐人群 |
---|---|---|
方法一(Python) | 全自动、最灵活、可批量识别 | 研究人员,熟悉代码 |
方法二(命令行) | 零代码配置,更直观 | 教师、工程师、懒得写脚本 |
方法三(在线) | 零配置,适合小量公式 | 仅偶尔处理,数量少的人 |