PDF 中提取数学公式

✅ 方法一:使用 doc2x extract_formula_imgs + Pix2Text 一键运行脚本(自动提取+识别)

👉 适合你如果用 Python 的话,只需要运行一段脚本即可:

✅ 🔁 一步搞定脚本(仅需安装一次)

复制代码
pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple 

🧠 然后运行这段代码即可完成整个流程:

复制代码
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import os

pdf_path = "你的论文.pdf"
output_dir = "formulas"
extract_formula_imgs(pdf_path, output_dir, dpi=300)  # 步骤1:提取公式图像

p2t = Pix2Text()  # 步骤2:初始化模型

for fname in sorted(os.listdir(output_dir)):  # 步骤3:公式识别
    if fname.endswith(".png"):
        img_path = os.path.join(output_dir, fname)
        latex = p2t(Image.open(img_path))
        print(f"{fname} → {latex}")

✅ 方法二:纯命令行简化(适合写在 Shell 脚本里)

如果你不想写 Python 脚本,也可以直接用命令行运行:

doc2x extract-formula-imgs 你的论文.pdf --out-dir formula_imgs pix2text formula_imgs/*.png --out output.txt

这样你能直接把所有 LaTeX 结果写入 output.txt


✅ 方法三:在线平台(无需安装,但受限)

若你不想安装环境,可以试试:


✅ 推荐组合方式(最快速+省心)

方式 特点 推荐人群
方法一(Python) 全自动、最灵活、可批量识别 研究人员,熟悉代码
方法二(命令行) 零代码配置,更直观 教师、工程师、懒得写脚本
方法三(在线) 零配置,适合小量公式 仅偶尔处理,数量少的人
相关推荐
测试19984 小时前
软件测试 - 单元测试总结
自动化测试·软件测试·python·测试工具·职场和发展·单元测试·测试用例
曲幽6 小时前
我用了FastApiAdmin后,连夜把踩过的坑都整理出来了
redis·python·postgresql·vue3·fastapi·web·sqlalchemy·admin·fastapiadmin
前端若水8 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
涛声依旧-底层原理研究所8 小时前
残差连接与层归一化通俗易懂的详解
人工智能·python·神经网络·transformer
csdn_aspnet8 小时前
Python 算法快闪 LeetCode 编号 70 - 爬楼梯
python·算法·leetcode·职场和发展
fantasy_arch9 小时前
pytorch人脸匹配模型
人工智能·pytorch·python
熊猫_豆豆9 小时前
广义相对论水星近日点进动完整详细数学推导
python·天体·广义相对论
web3.08889999 小时前
1688 图搜接口(item_search_img / 拍立淘) 接入方法
开发语言·python
AI算法沐枫10 小时前
深度学习python代码处理科研测序数据
数据结构·人工智能·python·深度学习·决策树·机器学习·线性回归
X1A0RAN11 小时前
解决Pycharm中部分文件或文件夹被隐藏不展示问题
ide·python·pycharm