python 读取pdf中的文本

摘要

常常需要针对pdf进行文本分析,以下给出了两种方法用来读取pdf中的文字

方法一 pypdf2

pip install PyPDF2

python 复制代码
import PyPDF2
filename = 'xxx.pdf'

with open(filename, 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfReader(file)

    # 遍历PDF中的每一页
    for page_num in range(len(reader.pages)):
        # 获取当前页面的文本内容
        text = reader.pages[page_num].extract_text()
        print(text)

方法二 langchain

pip install pypdf

python 复制代码
def pdf_load(filename):
    # pip install pypdf
    from langchain.document_loaders import PyPDFLoader
    loader = PyPDFLoader(filename)
    return loader.load_and_split()


res = pdf_load(filename)
print(res)

两种方法得到的结果,都在原文中出现了很多换行符。

输出如下:

双随机

一公开

"

食品药品市场监管机制

建立完善旗县

苏木乡镇食

相关推荐
装不满的克莱因瓶8 分钟前
基于 sklearn 工具和鸢尾花数据集,进行逻辑回归实战
人工智能·python·机器学习·ai·逻辑回归·sklearn
财经资讯数据_灵砚智能9 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月5日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
garmin Chen13 分钟前
Prompt工程入门:让AI按你的要求工作(2)--Prompt 高阶优化与结构化设计
java·人工智能·python·ai·prompt
AC赳赳老秦15 分钟前
用 OpenClaw 整理团队技术分享:自动提取 PPT 内容、生成文字稿、同步到知识库
开发语言·python·自动化·powerpoint·wpf·deepseek·openclaw
编程大师哥17 分钟前
推导式和生成器表达式有什么区别?
python
稳如磐石.17 分钟前
北京工业计算机
大数据·人工智能·python·物联网
SilentSamsara33 分钟前
Pandas 工程化:多层索引、分组聚合与窗口函数的进阶用法
开发语言·python·青少年编程·pandas
甄心爱学习34 分钟前
【项目实训(个人12)】
人工智能·python·算法
何以解忧,唯有..35 分钟前
Python 字符串完全指南:从基础到高级操作
开发语言·python
kiss strong37 分钟前
自制请求工具
开发语言·python·lua