pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
zixingcai2 小时前
Adobe Acrobat pro在一份PDF中插入空白页
pdf·adobe acrobat reader
課代表2 小时前
AcroForm JavaScript Promise 对象应用示例: 异步加载PDF文件
开发语言·javascript·pdf·promise·对象
charlie1145141913 小时前
基于Qt6 + MuPDF在 Arm IMX6ULL运行的PDF浏览器——MuPDF Adapter文档
arm开发·qt·学习·pdf·教程·设计·qt6
东风西巷7 小时前
MobiPDF:安卓设备上的专业PDF阅读与编辑工具
android·智能手机·pdf·软件需求
离别又见离别11 小时前
java实现根据Velocity批量生成pdf并合成zip压缩包
java·pdf
appleคิดถึง12 小时前
wps excel将表格输出pdf时所有列在一张纸上
pdf·excel·wps
开开心心就好1 天前
高效全能PDF工具,支持OCR识别
java·前端·python·pdf·ocr·maven·jetty
yngsqq2 天前
JPG与PDF格式转换器
pdf
新老农2 天前
php数据导出pdf,然后pdf转图片,再推送钉钉群
pdf·php·钉钉
琉璃℡初雪2 天前
vue2/3 中使用 @vue-office/docx 在网页中预览(docx、excel、pdf)文件
vue.js·pdf·excel