Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
世辰辰辰3 小时前
批量修改图片/文本名子
开发语言·python·批量修改文件名
myenjoy_15 小时前
MQTT 与 Sparkplug B——从车间到云端的最后一公里
网络·python
颜酱6 小时前
LangChain 输出解析器:把模型回复变成你要的数据
python·langchain
2401_873479406 小时前
企业安全运营中,如何用IP离线库提前发现失陷主机?三步实现风险画像
网络·数据库·python·tcp/ip·ip
weixin_523185326 小时前
Java基础知识总结(四):引用数据类型与参数传递机制
java·开发语言·python
码农飞哥7 小时前
我把RAG召回率从60%提到90%,就改了这两件事
python·知识库·向量检索·rag·效果提示
宸津-代码粉碎机7 小时前
Spring AI企业级实战|从RAG优化到Agent多工具调度
java·大数据·人工智能·后端·python·spring
yuhuofei20217 小时前
【Python入门】Python中的字典dict
python
Jinkxs7 小时前
Python基础 - 文件的写入操作 write与writelines方法
android·服务器·python
初学Python的小明7 小时前
Python格式化输出、运算符、分支&循环
python