pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
2501_9307077811 小时前
使用C#代码在 PDF 中创建目录
pdf
随便叫个啥呢1 天前
java使用poi-tl模版+vform自定义表单生成word,使用LibreOffice导出为pdf
java·pdf·word
随便叫个啥呢1 天前
java使用poi-tl模版+vform自定义表单生成word,使用LibreOffice导出为pdf,批量下载为压缩文件
java·pdf·word·zip
CodeCraft Studio1 天前
国产化Word处理控件Spire.Doc教程:使用Java将RTF文件转换为PDF的全面教程
java·pdf·word·spire.doc·rtf转pdf·文件格式转换·文档开发sdk
CodeCraft Studio2 天前
国产化Excel处理控件Spire.XLS教程:使用Java将CSV转换为PDF(含格式设置)
java·pdf·excel·spire.xls·文档格式转换·csv转pdf
雾江流2 天前
WPS国际版18.22 | 集Word,PDF,Sheet,PowerPoint于一体的多功能免费办公套件
pdf·word·软件工程·wps
Jay_Franklin2 天前
Python中使用sqlite3模块和panel完成SQLite数据库中PDF的写入和读取
数据库·笔记·python·pycharm·sqlite·pdf·py
有蝉2 天前
vue-office——支持多种文件(docx、excel、pdf)预览的vue组件库,支持vue2/3。也支持非Vue框架的预览。
vue.js·pdf·excel
2501_920955573 天前
PDF文件损坏打不开怎么修复?2025年最新修复工具测评与对比
pdf
季春二九3 天前
PDF-XChange Editor丨加拿大PDF编辑转换工具
pdf