pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
NON-JUDGMENTAL6 小时前
《Local_Pdf_Chat_RAG 深度学习笔记:PDF 本地化对话的 RAG 原理与实践》
笔记·pdf
Metaphor6926 小时前
Java 旋转 PDF 页面:使用 Spire.PDF 实现高效页面处理
java·经验分享·pdf
拓端研究室9 小时前
专题:2025零售数字化与即时零售竞争洞察报告|附130+份报告PDF、数据仪表盘汇总下载
pdf·零售
精致先生1 天前
多模态PDF解析
pdf·大模型·rag
啦啦9117142 天前
Print Conductor打印软件安装教程!一款非常好用的批量打印软件!支持PDF、Word、Excel、图片等
pdf·excel
yz17800414102 天前
window pdf文件批量转高清图片png、jpg
pdf·bash
老歌老听老掉牙2 天前
PDF转图片工具:基于PyQt5的完整实现与深度解析
python·qt·pdf
winfredzhang3 天前
python图片处理与PDF生成程序详解
python·pdf·图片·解压
vectorlogic3 天前
万兴PDF专家免费版下载安装教程
其他·pdf
伊织code3 天前
python-poppler - PDF文档处理Python绑定库
开发语言·python·pdf·python-poppler