python:PyPDF2 从PDF中提取目录

我发现 pypdf 和 pypdf2 的作者是同一人:Mathieu Fenniak

pip install pypdf2 ;

pypdf2-3.0.1-py3-none-any.whl (232 kB)

编写 pdf_read_dir.py 如下

python 复制代码
# -*- coding: utf-8 -*-
""" pypdf2==3.0.1 从PDF中提取目录 """
import os
import sys
from PyPDF2 import PdfReader

#每个书签的索引格式
#{'/Title': '书签名', '/Page': '指向的目标页数', '/Type': '类型'}

# 查找指定的字符出现次数
def find_char(str1, char):
    cs = 0
    for c in str1:
        if c == char:
            cs += 1
    return cs
    
directory_str = ''
def bookmark_listhandler(list):
    global directory_str
    for message in list:
        if isinstance(message, dict):
            title = message['/Title'].strip()
            if title.startswith("Chapter"): 
                directory_str += '\n' + title + '\n'
            elif title[0:2] in ("序章","前言") or title.startswith("序"):
                directory_str += '\n' + title + '\n'
            elif title.startswith("第") and title.split()[0][-1] =="章":
                directory_str += '\n' + title + '\n'
            elif title.startswith("第") and title.split()[0][-1] =="节":
                directory_str += '  ' + title + '\n'
            elif title.startswith("第"):
                directory_str += '\n' + title + '\n'
            elif title[0] in ('一','二','三','四','五','六','七','八','九','十'):
                directory_str += '    ' + title + '\n'
            elif title[0] in "1234567890":
                cs = find_char(title, '.')
                directory_str += '  '*cs + title + '\n'
            else:
                directory_str += '        ' + title + '\n'
        else:
            bookmark_listhandler(message)

# main()
if len(sys.argv) ==2:
    file1 = sys.argv[1]
else:
    print('usage: python pdf_read_dir.py file.pdf')
    sys.exit(1)

if not os.path.exists(file1):
    print(f"{file1} is not exists.")
    sys.exit(2)    

fn,ext = os.path.splitext(file1)
if ext.lower() != '.pdf':
    print("Please specify a valid pdf file")
    sys.exit(3)
  
with open(file1, 'rb') as f1:
    pdf = PdfReader(f1)
    # 检索文档中存在的文本大纲,返回的对象是一个嵌套的列表
    bookmark_listhandler(pdf.outline)

if len(directory_str) >0:
    fname = fn.split('\\')[-1]
    file2 = fn + '.txt'
    with open(file2, 'w', encoding='utf-8') as fp:
        fp.write(fname +'\n')
        fp.write(directory_str)
else:
    print("it no directory.")

运行 python pdf_read_dir.py your_ebook.pdf

生成 your_ebook.txt

由于算法优劣原因,生成的结果正确性始终比不过 java : pdfbox 读取 PDF文件内书签

相关推荐
学测绘的小杨15 小时前
CompassFusion:一个从 GNSS 到 GNSS/INS 组合导航的独立工程包
python
zzzzzz3101 天前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐1 天前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱1 天前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot1 天前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海2 天前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱2 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽2 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码2 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱2 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理