Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
2023框框5 小时前
给PDF书籍添加书签
pdf
月屯9 小时前
Pandoc 之--pdf-engine
java·开发语言·pdf
开开心心_Every14 小时前
Word转PDF工具,免费生成图片型文档
网络·笔记·pdf·word·powerpoint·excel·azure
一个无名的炼丹师15 小时前
[硬核实战] 解锁多模态RAG:构建能“看懂”PDF复杂图表的智能问答系统
人工智能·python·pdf·多模态·rag
非凡ghost2 天前
Xournal++(PDF文档注释工具) 中文绿色版
学习·pdf·生活·软件需求
MonkeyKing_sunyuhua2 天前
使用ARQ做PDF OCR和 图片OCR的任务的方案
pdf·ocr
2501_930707782 天前
如何使用C#代码在 PDF 中添加或删除附件
pdf
m5655bj2 天前
如何使用 Python 调整 PDF 页面顺序?
python·pdf
YuanYWRS2 天前
办公基础:实现PDF中表单不改变格式的情况下转成excel
pdf·excel
E_ICEBLUE2 天前
PDF vs PDF/A:区别、场景与常用转换方法(2025 全面解读)
python·pdf