Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
一勺菠萝丶5 分钟前
芋道框架 - API 前缀区分机制
java·linux·python
kcuwu.6 分钟前
Python判断及循环
android·java·python
前进的李工12 分钟前
LangChain使用之Model IO(提示词模版之ChatPromptTemplate)
java·前端·人工智能·python·langchain·大模型
Fairy要carry18 分钟前
面试-Agent上下文过载、步骤混乱的问题
开发语言·python
今儿敲了吗36 分钟前
python基础学习笔记第五章——容器
笔记·python·学习
qq_3349031542 分钟前
使用Flask快速搭建轻量级Web应用
jvm·数据库·python
E_ICEBLUE1 小时前
在 Python 中对比 Word 文档:自动生成修订报告
python·word
代码探秘者1 小时前
【大模型应用】6.RAG 场景下的向量+关键词混合检索
java·开发语言·人工智能·python·spring
小小怪7502 小时前
将Python Web应用部署到服务器(Docker + Nginx)
jvm·数据库·python
Sylvia33.2 小时前
体育数据API实战:用火星数据实现NBA赛事实时比分与状态同步
java·linux·开发语言·前端·python