Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

python 复制代码
import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)
相关推荐
啊阿狸不会拉杆2 分钟前
第二十二章:Python-NLTK库:自然语言处理
前端·python·自然语言处理
七月的和弦3 分钟前
软件下载自用
python
niuniu_6661 小时前
selenium应用测试场景
python·selenium·测试工具·单元测试·测试
nzz_1712141 小时前
puppeteer+express服务端导出页面为pdf
pdf·express
满怀10152 小时前
Python扩展知识详解:lambda函数
开发语言·python
蓝博AI4 小时前
基于卷积神经网络的眼疾识别系统,resnet50,efficentnet(pytorch框架,python代码)
pytorch·python·cnn
牧歌悠悠6 小时前
【Python 算法】动态规划
python·算法·动态规划
Doris Liu.8 小时前
如何检测代码注入(Part 2)
windows·python·安全·网络安全·网络攻击模型
逢生博客8 小时前
阿里 FunASR 开源中文语音识别大模型应用示例(准确率比faster-whisper高)
人工智能·python·语音识别·funasr
噔噔噔噔@8 小时前
软件测试对于整个行业的重要性及必要性
python·单元测试·压力测试