python+pdfplumber:提取和分析PDF中的表格、文本等数据,实现pdf转图片、CSV、JSON、dict

目录

提取文本内容

提取表格内容

提取图片信息

文本框信息数据

将对应页转为图片

转CSV、JSON、字典数据


安装:pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple/

提取文本内容

python 复制代码
from pdfplumber import open as op


def read_pdf(pdf_path):
    with op(pdf_path) as pdf:
        for page in pdf.pages:

            # 包含表格在内的所有文本信息
            text = page.extract_text()
            print(text)

提取表格内容

可将提取到的表格数据通过写表的方式插入到excel中或做其他处理

python 复制代码
            for table in page.extract_tables():
                for row in table:
                    print(row)

提取图片信息

python 复制代码
            for img in page.images:
                print(img)

文本框信息数据

python 复制代码
            for wds in page.extract_words():   # 文本框位置及内容
                print(wds) 

将对应页转为图片

resolution参数为像素值,值越大,图片越清晰

python 复制代码
page.to_image(resolution=500).save(rf'{pdf_path.split(".")[0]}-{page.page_number}.png')

转CSV、JSON、字典数据

python 复制代码
            print(page.to_csv())  # 转csv数据
            print(page.to_json(indent=4))  # 转JSON数据
            print(page.to_dict())  # 转字典数据
相关推荐
s09071361 分钟前
【声纳成像】基于滑动子孔径与加权拼接的条带式多子阵SAS连续成像(MATLAB仿真)
开发语言·算法·matlab·合成孔径声呐·后向投影算法·条带拼接
深蓝轨迹6 分钟前
@Autowired与@Resource:Spring依赖注入注解核心差异剖析
java·python·spring·注解
不想看见4047 分钟前
C++八股文【详细总结】
java·开发语言·c++
人工智能AI技术10 分钟前
Python 3.14.3更新!内存优化与安全补丁实战应用
python
2401_8916558113 分钟前
此电脑网络位置异常的AD域排错指南的技术文章大纲
开发语言·python·算法
江公望14 分钟前
C++11 std::function,10分钟讲清楚
开发语言·c++
不要秃头的小孩24 分钟前
50. 随机数排序
数据结构·python·算法
leaves falling25 分钟前
C++入门基础
开发语言·c++
huaweichenai25 分钟前
java的数据类型介绍
java·开发语言
qq_4176950533 分钟前
实战:用OpenCV和Python进行人脸识别
jvm·数据库·python