python 读取pdf中的文本

摘要

常常需要针对pdf进行文本分析,以下给出了两种方法用来读取pdf中的文字

方法一 pypdf2

pip install PyPDF2

python 复制代码
import PyPDF2
filename = 'xxx.pdf'

with open(filename, 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfReader(file)

    # 遍历PDF中的每一页
    for page_num in range(len(reader.pages)):
        # 获取当前页面的文本内容
        text = reader.pages[page_num].extract_text()
        print(text)

方法二 langchain

pip install pypdf

python 复制代码
def pdf_load(filename):
    # pip install pypdf
    from langchain.document_loaders import PyPDFLoader
    loader = PyPDFLoader(filename)
    return loader.load_and_split()


res = pdf_load(filename)
print(res)

两种方法得到的结果,都在原文中出现了很多换行符。

输出如下:

双随机

一公开

"

食品药品市场监管机制

建立完善旗县

苏木乡镇食

相关推荐
空城皆是旧梦2 分钟前
python爬虫初体验(二)
爬虫·python
crownyouyou5 分钟前
第一次安装Pytorch
人工智能·pytorch·python
qq_4350707815 分钟前
python乱炖6——sum(),指定维度进行求和
pytorch·python·深度学习
weixin_4181235528 分钟前
Selenium点击元素的方法
python·selenium
豌豆花下猫1 小时前
Python 潮流周刊#70:微软 Excel 中的 Python 正式发布!(摘要)
后端·python·ai
可愛小吉1 小时前
Python 课程14-TensorFlow
开发语言·人工智能·python·tensorflow
编程零零七1 小时前
Python数据分析工具(四):pymysql的用法
开发语言·python·oracle·数据挖掘·数据分析·python项目·python源码
盼兮*1 小时前
CentOS配置python版本管理工具pyenv
python·centos
Flying_Fish_roe2 小时前
Spring Boot-RESTful API相关问题
spring boot·python·restful
叫我:松哥2 小时前
基于机器学习的癌症数据分析与预测系统实现,有三种算法,bootstrap前端+flask
前端·python·随机森林·机器学习·数据分析·flask·bootstrap