Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
DeskUI~~1 天前
倚天剑术32--使用PDF的内容搜索功能帮你检查报销票据
pdf
l1t1 天前
利用omnicoder-9b模型编写把扫描版pdf转成文字版pdf的程序
人工智能·python·pdf
weixin_6682 天前
Agent 应该中 PDF 工具方案分析报告 - AI分析分享
人工智能·pdf
fjhcom2 天前
PDF与图片互转WEB应用开发教程
前端·pdf·图片·web应用·streamlit
polaris06302 天前
【Spring Boot 实现 PDF 导出】
spring boot·后端·pdf
南风微微吹3 天前
【2026大英赛】全国大学生英语竞赛C类历年真题试卷及答案电子版PDF(2012-2025年)
pdf·大英赛
南风微微吹3 天前
【专八】英语专业八级TEM8历年真题及答案解析电子版PDF(2009-2025年)
pdf·英语专八
西门吹-禅3 天前
【pdf 翻译免费】
pdf
薛定谔之死猫3 天前
Ruby简单粗暴把图片合成PDF文档
java·pdf·ruby