macos上一个好用的PDF文字提取工具方案

PDF 文字提取工具使用说明

环境信息

  • 系统:macOS 12.7.6 (x86_64)
  • Python:3.12(venv 虚拟环境)
  • paddlepaddle:2.6.2
  • paddleocr:2.6.1.3
  • PyMuPDF:1.27.2.3

虚拟环境

所有依赖安装在 ~/pdf_ocr_env 虚拟环境中,需要先激活才能使用。

激活环境

bash 复制代码
source ~/pdf_ocr_env/bin/activate

退出环境

bash 复制代码
deactivate

不激活环境直接运行

bash 复制代码
~/pdf_ocr_env/bin/python extract_pdf_ocr.py

使用方法

1. 命令行运行

bash 复制代码
source ~/pdf_ocr_env/bin/activate
python extract_pdf_ocr.py

2. 修改 PDF 路径

编辑 extract_pdf_ocr.py,修改最后一行的 PDF 文件路径:

python 复制代码
if __name__ == "__main__":
    pdf_path = "/你的路径/你的文件.pdf"  # 改成你的 PDF 路径
    result = extract_pdf_text(pdf_path)
    print(result)

3. 在其他脚本中调用

python 复制代码
import sys
sys.path.insert(0, "/Users/wjr/Desktop/work/Ai/pdf")
from extract_pdf_ocr import extract_pdf_text

result = extract_pdf_text("/你的路径/你的文件.pdf")
print(result)

提取逻辑

  1. 用 PyMuPDF 打开 PDF,逐页渲染为图片(300 DPI)
  2. 用 PaddleOCR 识别每页图片中的文字
  3. 输出所有页面的文字内容

本工具采用纯 OCR 方式提取,适用于文本层编码异常或扫描件 PDF。

常见问题

No module named 'fitz'

用了系统 Python 而不是 venv。用 ~/pdf_ocr_env/bin/python 或先 source ~/pdf_ocr_env/bin/activate

MuPDF error: zlib error: incorrect header check

警告信息,不影响结果,可忽略。

OCR 结果为空

检查 PDF 是否为纯图片且 DPI 过低,可尝试将 dpi=300 改为 dpi=600 提高识别率。

相关推荐
汤姆yu6 小时前
macOS系统下Aider完整安装、配置与实战使用教程
大数据·人工智能·算法·macos·github·copilot
码云数智-园园8 小时前
SwiftUI 6 生产落地踩坑实录
macos·objective-c·cocoa
向阳是我9 小时前
在 Mac(M2)上用 faster-whisper 实现高精度中文语音转文字
python·macos·ai·whisper·语音识别
Tisfy9 小时前
MacOS:首次外接键盘初始化设置(Option/Command互换、左上角·~而非§±)
macos·计算机外设
wenxin77wx21 小时前
3步部署OlmOCR:一行命令将PDF转为LLM训练数据
pdf·- olmocr
ShiXZ2131 天前
PDF-OCR文件识别篇(七):数据入库
java·pdf·json·ocr·springboot
hong78171 天前
西门子触摸屏PROSAVE传输PDF组件没有选项
pdf·触摸屏·西门子
王莎莎-MinerU1 天前
当 RealDocBench 开始追问字段级问答,MinerU 为什么更适合做知识库与科研 Agent 的文档验收层
大数据·人工智能·算法·pdf·ocr
小鹿软件办公1 天前
如何利用 Mac 自带 iMovie 裁剪去除视频 Logo 或文字水印
macos·音视频·视频去水印·简鹿水印助手