pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

复制代码
安装:

 pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

复制代码
import pdfplumber

with pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:
    num_pages = len(pdf.pages)
    print(num_pages)
    for page_num in range(num_pages):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(text)

原内容

识别结果:

2、PyPDF2

复制代码
安装:

pip install PyPDF2

代码:

复制代码
import PyPDF2
from tqdm import tqdm

pdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:
    pdfReader = PyPDF2.PdfReader(pdfFileObj)
    for page in tqdm(pdfReader.pages):
        pdftext += page.extract_text()

print(pdftext)
相关推荐
min1811234566 小时前
PC流程图模板大全 中文定制化满足不同行业需求
架构·pdf·流程图
min1811234567 小时前
组织结构图导出PDF 高清无水印在线生成
网络·人工智能·架构·pdf·流程图·copilot
拓端研究室8 小时前
2026机器人产业前沿洞察报告:人形与特种机器人,认证、制造到消费 | 附280+份报告PDF、数据、可视化模板汇总下载
机器人·pdf·制造
开开心心_Every9 小时前
PDF密码移除工具,解除打印编辑复制权限免费
linux·运维·服务器·pdf·web3·ocr·共识算法
C_心欲无痕13 小时前
前端 PDF 渲染与下载实现
前端·pdf
ONLYOFFICE13 小时前
ONLYOFFICE 文档 9.3 开发者版:PDF API、Office JavaScript API 新方法及更多功能
pdf·onlyoffice
min18112345615 小时前
在线绘制跨职能流程图电脑端简单操作优化部门协作效率
人工智能·系统架构·pdf·流程图
开开心心就好16 小时前
Word批量转PDF工具,仅转换不合并很实用
java·前端·人工智能·edge·pdf·语音识别·模块测试
usdoc文档预览16 小时前
Word文件转PDF、WPS在线打印、js提取Word文件内容、轻松将Word文档转为PDF
pdf·word·wps·在线预览·word转pdf·在线编辑·ofd在线预览解析
Felicia-侧听17 小时前
PDF转长图的2个方法
经验分享·pdf·pdf转图片·pdf转长图