python-poppler - PDF文档处理Python绑定库

文章目录


一、关于 python-poppler

1、项目概览

python-poppler 是基于poppler-cpp库的Python绑定,提供PDF文档的读取、渲染和修改功能。

主要功能包括:

  • 读取和修改文档元数据
  • 列出和读取嵌入式文档
  • 列出文档使用的字体
  • 在指定页面搜索或提取文本
  • 将页面渲染为原始图像
  • 获取页面间过渡效果信息
  • 读取文档目录结构

二、相关链接资源


三、安装与使用

1、安装方式

bash 复制代码
pip install poppler

2、基础示例

python 复制代码
from poppler import load_from_file, PageRenderer

pdf_document = load_from_file("sample.pdf")
page_1 = pdf_document.create_page(0)
page_1_text = page_1.text()

renderer = PageRenderer()
image = renderer.render_page(page_1)
image_data = image.data

四、开发贡献

1、使用GitHub issue跟踪器提交问题或功能请求

2、代码格式化要求:

bash 复制代码
tox -e lint

3、运行测试:

bash 复制代码
tox

4、新功能需提供配套单元测试


伊织 xAI 2025-07-02(三)

相关推荐
liliangcsdn1 分钟前
python如何写数据到excel示例
开发语言·python·excel
CNRio3 分钟前
将word和excel快速转换为markdown格式
python·word·excel
workflower3 小时前
单元测试-例子
java·开发语言·算法·django·个人开发·结对编程
小白银子3 小时前
零基础从头教学Linux(Day 52)
linux·运维·服务器·python·python3.11
YuanlongWang3 小时前
C# 基础——装箱和拆箱
java·开发语言·c#
b78gb3 小时前
电商秒杀系统设计 Java+MySQL实现高并发库存管理与订单处理
java·开发语言·mysql
AAA小肥杨4 小时前
基于k8s的Python的分布式深度学习训练平台搭建简单实践
人工智能·分布式·python·ai·kubernetes·gpu
LXS_3575 小时前
Day 05 C++ 入门 之 指针
开发语言·c++·笔记·学习方法·改行学it
etsuyou6 小时前
js前端this指向规则
开发语言·前端·javascript
shizhenshide6 小时前
为什么有时候 reCAPTCHA 通过率偏低,常见原因有哪些
开发语言·php·验证码·captcha·recaptcha·ezcaptcha