pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
CHANG_THE_WORLD14 小时前
PDF文档结构分析 一
前端·pdf
开开心心_Every15 小时前
Win10/Win11版本一键切换工具
linux·运维·服务器·edge·pdf·web3·共识算法
kiss strong17 小时前
springboot替换word模板&加入二维码&加水印&转为pdf
spring boot·后端·pdf
小咖自动剪辑1 天前
Base64与图片互转工具增强版:一键编码/解码,支持多格式
人工智能·pdf·word·媒体
开开心心_Every2 天前
家常菜谱软件推荐:分类齐全无广告步骤详细
linux·运维·服务器·华为od·edge·pdf·华为云
开开心心就好2 天前
键盘映射工具改键位,绿色版设置后重启生效
网络·windows·tcp/ip·pdf·计算机外设·电脑·excel
cuber膜拜2 天前
Marp CLI快速入门
pdf·npm·markdown·ppt·marp
reasonsummer2 天前
【办公类-53-09】20260131Python模仿制作2025学年第二学期校历(excel+pdf)
python·pdf
心语星光2 天前
用python语言的pyautogui库实现伪批量将xdf文件打印为pdf文件
开发语言·python·pdf·自动化
iReachers2 天前
PDF一机一码加密大师1.1.0更新至2026最新版, 强力加密PDF, 无需额外安装阅读器, 附CSDN下载地址
pdf