Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
m5655bj40 分钟前
如何通过 C# 实现 PDF 页面裁剪
前端·pdf·c#
夏日白云1 天前
《PDF解析工程实录》第 8 章|融合策略:不是兜底,而是信息利用率最大化
pdf·llm·大语言模型·rag·文档解析
m5655bj1 天前
通过 Python 提取 PDF 表格数据
服务器·python·pdf
清平乐的技术专栏1 天前
电脑自带Edge浏览器进行PDF文件合并
前端·edge·pdf
Irene19911 天前
文档加密加水印只读分享:WPS/PPT编辑后导出PDF(附:百度网盘分享流程)
pdf·加密·wps·pptx·只读
2501_930707781 天前
使用C#代码重新排列 PDF 页面
开发语言·pdf·c#
南风微微吹1 天前
【2026年3月】计算机二级WPS真题试卷及解析14套~电子版PDF
pdf·wps·计算机二级wps
夏日白云1 天前
《PDF解析工程实录》第 9 章|端到端多模态模型:不是接不住,而是要看业务能接受什么
pdf·llm·大语言模型·多模态·rag·文档解析
机器学习算法与Python实战2 天前
PDF 文件翻译,我有4个方案推荐
pdf
manjianghong863 天前
如何将一本书PDF扫描件转word 并打印(免费工具)
pdf·word·pdf处理工具