Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
力江14 分钟前
FastAPI 最佳架构实践,从混乱到优雅的进化之路
python·缓存·架构·单元测试·fastapi·分页·企业
Raink老师27 分钟前
第 11 章 错误处理与异常
python
Lululaurel28 分钟前
AI编程文本挖掘提示词实战
人工智能·python·机器学习·ai·ai编程·提示词
HappRobot36 分钟前
Python 面向对象
开发语言·python
BoBoZz191 小时前
AlignTwoPolyDatas 基于ICP算法的配准和相机视角切换
python·vtk·图形渲染·图形处理
嗝o゚1 小时前
Flutter与开源鸿蒙:一场“应用定义权”的静默战争,与开发者的“范式跃迁”机会
python·flutter
一只会奔跑的小橙子1 小时前
pytest安装对应的库的方法
python
ohoy1 小时前
EasyPoi 数据脱敏
开发语言·python·excel
BoBoZz192 小时前
MarchingCubes 网格数据体素化并提取等值面
python·vtk·图形渲染·图形处理
ekprada2 小时前
DAY36 复习日
开发语言·python·机器学习