python 读取pdf中的文本

摘要

常常需要针对pdf进行文本分析,以下给出了两种方法用来读取pdf中的文字

方法一 pypdf2

pip install PyPDF2

python 复制代码
import PyPDF2
filename = 'xxx.pdf'

with open(filename, 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfReader(file)

    # 遍历PDF中的每一页
    for page_num in range(len(reader.pages)):
        # 获取当前页面的文本内容
        text = reader.pages[page_num].extract_text()
        print(text)

方法二 langchain

pip install pypdf

python 复制代码
def pdf_load(filename):
    # pip install pypdf
    from langchain.document_loaders import PyPDFLoader
    loader = PyPDFLoader(filename)
    return loader.load_and_split()


res = pdf_load(filename)
print(res)

两种方法得到的结果,都在原文中出现了很多换行符。

输出如下:

双随机

一公开

"

食品药品市场监管机制

建立完善旗县

苏木乡镇食

相关推荐
qq_206901394 小时前
为什么宝塔面板网站无法正常连接外部远程数据库_检查服务器安全组放行端口并开启IP授权
jvm·数据库·python
空空潍4 小时前
Miniconda完整安装教程(win版)
python·miniconda
深兰科技4 小时前
深兰科技与淡水河谷合作推进:矿区示范加速落地
java·人工智能·python·c#·scala·symfony·深兰科技
weixin_586061464 小时前
JavaScript中Redux-Thunk处理异步Action的任务流
jvm·数据库·python
蒸汽求职4 小时前
北美求职身份过渡:Day 1 CPT 的合规红线与安全入职指南
开发语言·人工智能·安全·pdf·github·开源协议
2401_897190555 小时前
Golang怎么写TODO待办应用_Golang TODO应用教程【深入】
jvm·数据库·python
m0_678485455 小时前
CSS实现浮动图标与文本居中对齐_配合浮动与flex
jvm·数据库·python
YuanDaima20485 小时前
二分查找基础原理与题目说明
开发语言·数据结构·人工智能·笔记·python·算法
2401_887724505 小时前
uni-app动画效果实现 uni-app如何使用animation API
jvm·数据库·python
Luca_kill5 小时前
实战指南:用 Python + NLP 搭建一套轻量级 AI 舆情监控系统
人工智能·python·机器学习·nlp·舆情监控