Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
我命由我123451 小时前
Android PDF 操作 - AndroidPdfViewer 显示 PDF 异常清单(数据为 null、数据为空、PDF 文件损坏、非 PDF 文件)
android·java·java-ee·pdf·android studio·android-studio·android runtime
TextIn智能文档云平台4 小时前
AI在处理扫描版PDF时准确率低,如何提升?
人工智能·pdf
D_east4 小时前
Power Apps:预览SharePoint文档库的PDF文档
pdf·sharepoint
儒雅永缘4 小时前
VBA实现word文档批量转PDF文件
pdf·c#·word
不会爬树的小研4 小时前
网页pdf下载攻略--以混元上传的pdf为例
pdf
CodeCraft Studio4 小时前
FastReport VCL发布2026.1版本:全面支持RAD Studio 13,PDF输出功能显著增强
数据库·pdf·rad studio·fastreport·报表设计器·报表开发工具·vcl
会飞的小菠菜4 小时前
如何将多张PGN、JPG等格式图片合并成一个PDF文档?
pdf·合并·拼接
Source.Liu4 小时前
【PDF】PDF技术概述
pdf
weixin_441003645 小时前
英语四级真题完整版(1990-2025)|2025年6月最新试题+答案解析|可打印PDF
pdf
落落鱼201317 小时前
Dompdf库html生成pdf时editor编辑器中文本长度被截断不会自动换行问题处理
pdf·编辑器·php·html生成pdf