文章目录
一、关于 python-poppler
1、项目概览
python-poppler
是基于poppler-cpp
库的Python绑定,提供PDF文档的读取、渲染和修改功能。
主要功能包括:
- 读取和修改文档元数据
- 列出和读取嵌入式文档
- 列出文档使用的字体
- 在指定页面搜索或提取文本
- 将页面渲染为原始图像
- 获取页面间过渡效果信息
- 读取文档目录结构
二、相关链接资源
- Github:https://github.com/cbrunet/python-poppler
- 官方文档:https://cbrunet.github.io/python-poppler/
- C++库文档:https://poppler.freedesktop.org/api/cpp/namespacepoppler.html
- 代码规范:https://github.com/psf/black
- 问题追踪:https://github.com/cbrunet/python-poppler/issues
三、安装与使用
1、安装方式
bash
pip install poppler
2、基础示例
python
from poppler import load_from_file, PageRenderer
pdf_document = load_from_file("sample.pdf")
page_1 = pdf_document.create_page(0)
page_1_text = page_1.text()
renderer = PageRenderer()
image = renderer.render_page(page_1)
image_data = image.data
四、开发贡献
1、使用GitHub issue跟踪器提交问题或功能请求
2、代码格式化要求:
bash
tox -e lint
3、运行测试:
bash
tox
4、新功能需提供配套单元测试
伊织 xAI 2025-07-02(三)