python 读取pdf中的文本

摘要

常常需要针对pdf进行文本分析,以下给出了两种方法用来读取pdf中的文字

方法一 pypdf2

pip install PyPDF2

python 复制代码
import PyPDF2
filename = 'xxx.pdf'

with open(filename, 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfReader(file)

    # 遍历PDF中的每一页
    for page_num in range(len(reader.pages)):
        # 获取当前页面的文本内容
        text = reader.pages[page_num].extract_text()
        print(text)

方法二 langchain

pip install pypdf

python 复制代码
def pdf_load(filename):
    # pip install pypdf
    from langchain.document_loaders import PyPDFLoader
    loader = PyPDFLoader(filename)
    return loader.load_and_split()


res = pdf_load(filename)
print(res)

两种方法得到的结果,都在原文中出现了很多换行符。

输出如下:

双随机

一公开

"

食品药品市场监管机制

建立完善旗县

苏木乡镇食

相关推荐
java干货22 分钟前
为什么 “File 10“ 排在 “File 2“ 前面?解决文件名排序的终极算法:自然排序
开发语言·python·算法
机器懒得学习23 分钟前
智能股票分析系统
python·深度学习·金融
毕设源码-郭学长23 分钟前
【开题答辩全过程】以 基于python的二手房数据分析与可视化为例,包含答辩的问题和答案
开发语言·python·数据分析
SR_shuiyunjian26 分钟前
Python第三次作业
python
vx_biyesheji000128 分钟前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts
鸽芷咕1 小时前
DrissionPage 成 CANN 仓库爆款自动化工具:背后原因何在?
运维·python·自动化·cann
爱学习的阿磊1 小时前
使用Fabric自动化你的部署流程
jvm·数据库·python
少云清1 小时前
【金融项目实战】7_接口测试 _代码实现接口测试(重点)
python·金融项目实战
深蓝电商API1 小时前
爬虫IP封禁后的自动切换与检测机制
爬虫·python
m0_550024631 小时前
持续集成/持续部署(CI/CD) for Python
jvm·数据库·python