Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
OPEN-Source13 小时前
给 Agent 安装技能:工具抽象、自动选工具与安全边界
人工智能·python·agent·rag·deepseek
ljxp123456813 小时前
高效删除链表重复节点
python
52Hz11813 小时前
力扣207.课程表、208.实现Trie(前缀树)
python·leetcode
骇城迷影13 小时前
从零复现GPT-2 124M
人工智能·pytorch·python·gpt·深度学习
kronos.荒13 小时前
滑动窗口:寻找字符串中的字母异位词
开发语言·python
Full Stack Developme14 小时前
spring #{} 与 ${} 区别
windows·python·spring
马腾化云东14 小时前
Agent开发应知应会(Langfuse):Langfuse Session概念详解和实战应用
人工智能·python·llm
松涛和鸣14 小时前
75、 IMX6ULL LM75温度传感器I2C驱动开发
java·linux·数据库·驱动开发·python
甄心爱学习14 小时前
【python】list的底层实现
开发语言·python
Jack.Huangjh14 小时前
ABAP PDF
pdf