pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
yesyesido9 小时前
PDF全能管家:3合1智能处理,一键解锁高效文档管理新体验
科技·考研·安全·pdf·生活·交互·改行学it
南风微微吹12 小时前
2015-2025年英语四级历年真题及答案解析PDF电子版(可下载)
pdf·英语四级
拓端研究室12 小时前
专题:2026年中国消费零售行业新图景报告:消费者行为、品牌增长与AI应用|附540+份报告PDF、数据、可视化模板汇总下载
人工智能·pdf·零售
YongCheng_Liang12 小时前
Python实现PDF 转 JPG 批量转换工具
运维·python·pdf
weixin_4624462312 小时前
【原创实现】Python 实现 PDF 批量压缩工具(支持逐个确认 / 批量处理 / 多级压缩)
开发语言·python·pdf
泰勒朗斯12 小时前
解除/unlock pdf加密加锁
pdf
Ustinian_31013 小时前
【python】图片转PDF工具【附完整源码】
开发语言·python·pdf
2501_9307077813 小时前
如何使用C#更改 PDF 文档的安全权限
安全·pdf
小年糕是糕手15 小时前
【C++同步练习】C++入门
开发语言·数据结构·c++·算法·pdf·github·排序算法
南风微微吹19 小时前
2015-2025年英语六级历年真题及答案解析PDF电子版(可下载)
pdf·英语六级