pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
xinixini6 小时前
小初高全学科课程标准PDF
pdf
SQVIoMPLe8 小时前
python-langchain框架(3-7-提取pdf中的图片 )
python·langchain·pdf
Highcharts.js9 小时前
Highcharts客户端导出使用文档说明|图表导出模块讲解
前端·javascript·pdf·highcharts·图表导出
CHANG_THE_WORLD12 小时前
PDF结构的清晰图示
java·服务器·pdf
怀君12 小时前
Uniapp——View布局生成图片转PDF
pdf·uni-app
其实秋天的枫12 小时前
2026年初中中考英语大纲词汇表1600个电子版PDF(含单词音频和默写本)
经验分享·pdf
weixin_4410036412 小时前
2027众合法硕一本通电子版pdf
pdf·众合法硕一本通
优化控制仿真模型12 小时前
考研计算机408统考历年真题及答案解析PDF电子版(2009-2026年)
经验分享·pdf
じ☆ve 緈辐12 小时前
ELSEVIER(爱思唯尔)投稿PDF中生成中文错误和计算稿件words的数量。
pdf
CHANG_THE_WORLD12 小时前
PDF解析器代码详解:从文件结构到交叉引用表解析
网络·pdf