Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
rising start几秒前
Python 实战:Redis 的基础操作与连接池(Pool)深度解析
redis·python·bootstrap
其实秋天的枫2 分钟前
【26年】考研数学一、二、三历年真题及答案解析PDF电子版(1987-2026年)
经验分享·pdf
白日与明月5 分钟前
pip下载库指定操作系统及python版本
开发语言·python·pip
折哥的程序人生 · 物流技术专研6 分钟前
Qoder 1.0 完全指南:从安装到Agents驱动开发实战
开发语言·人工智能·python·ai编程
买大橘子也用券10 分钟前
26软件系统安全赛-Fake Emotion(复盘)
python·深度学习·安全·网络安全
夏日清风有你10 分钟前
WPS pdf 页面替换和编辑使用
pdf
輕華11 分钟前
Flask_GET请求与JSON响应实战详解
python·flask·json
weelinking12 分钟前
【产品】10_搭建前端框架——把你的原型变成真实页面
java·大数据·前端·数据库·人工智能·python·前端框架
yaoxin52112316 分钟前
421. Java 日期时间 API - 包结构 & 方法命名规范
java·前端·python
开开心心就好20 分钟前
解决图片无页码添加功能的实用工具
javascript·python·安全·智能手机·pdf·音视频·1024程序员节