python 读取pdf中的文本

摘要

常常需要针对pdf进行文本分析,以下给出了两种方法用来读取pdf中的文字

方法一 pypdf2

pip install PyPDF2

python 复制代码
import PyPDF2
filename = 'xxx.pdf'

with open(filename, 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfReader(file)

    # 遍历PDF中的每一页
    for page_num in range(len(reader.pages)):
        # 获取当前页面的文本内容
        text = reader.pages[page_num].extract_text()
        print(text)

方法二 langchain

pip install pypdf

python 复制代码
def pdf_load(filename):
    # pip install pypdf
    from langchain.document_loaders import PyPDFLoader
    loader = PyPDFLoader(filename)
    return loader.load_and_split()


res = pdf_load(filename)
print(res)

两种方法得到的结果,都在原文中出现了很多换行符。

输出如下:

双随机

一公开

"

食品药品市场监管机制

建立完善旗县

苏木乡镇食

相关推荐
冰暮流星5 小时前
flask之app.py讲解
后端·python·flask
大气的小蜜蜂5 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·qt·sqlite
程序员杰哥6 小时前
接口自动化测试项目框架详解
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·接口测试
love530love6 小时前
AI Agent + 本地 ComfyUI 无头模式实战:关闭 IDE 后 AI 独立重启并完成图文生成
ide·人工智能·windows·python·音视频·agent·devops
FriendshipT6 小时前
Ultralytics:解读Attention模块
人工智能·pytorch·python·深度学习·目标检测
许彰午6 小时前
73_Python爬虫Scrapy框架入门
爬虫·python·scrapy
@realXuan6 小时前
人工智能AI编程 Agent 入门系列教程之 Claude Code 是什么
人工智能·python·ai编程
孤狼warrior6 小时前
从冒泡到传送带流水线:一个3D沉浸式算法靶场,让思想的伟力改变世界
python·算法·typescript
搬砖柯6 小时前
系列11-测试平台 MCP Server 实践:用 Kimi Code 自然语言查项目、跑 API 回归
人工智能·python·ai·开源·自动化
向阳是我6 小时前
在 Mac(M2)上用 faster-whisper 实现高精度中文语音转文字
python·macos·ai·whisper·语音识别