Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
淘矿人2 分钟前
2026年4月-DeepSeek V4 vs GPT-5.5深度对比测评:weelinking一键切换实测
服务器·数据库·人工智能·python·gpt·学习·php
一只幸运猫.17 分钟前
Google Mug库——一个现代的通用工具库
开发语言·python
2401_8314194421 分钟前
CSS 悬停箭头闪烁下移问题的根源与稳定解决方案
jvm·数据库·python
小菜鸟阿呆yu28 分钟前
【pycharm】安装包例如pymysql
ide·python·pycharm
民乐团扒谱机39 分钟前
【附完整代码】Python爬取古筝网曲谱图片一键生成PDF(下·PDF生成与GUI篇)
开发语言·python·pdf
lunareclipse41 分钟前
Python 填坑:消失的信号点 —— 详解“可变默认参数”陷阱
python
光之后裔43 分钟前
Numpy以及Pytorch中多维数组的维度数与维度值以及轴axis理解
pytorch·python·numpy
玛卡巴卡ldf1 小时前
【Springboot9】将业务模块数据导出为PDF
pdf·springboot
tangweiguo030519871 小时前
RAG 从零到一:让大模型读懂你的文档
python·langchain
挖AI金矿1 小时前
(六)文件与搜索 - 信息处理的正确姿势
人工智能·python·开源·个人开发·ai编程