Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
沙漠豪10 小时前
提取PDF发票信息的Python脚本
开发语言·python·pdf
非凡ghost11 小时前
CoolUtils PDF Combine(PDF合并工具)
windows·学习·pdf·软件需求
小离a_a14 小时前
富文本内容展示A4纸张大小的内容,生成一个pdf的格式预览,预览内容上加两张图片,图片可拖拽,可下载到本地pdf
pdf
SYC_MORE15 小时前
无需 OCR,多模态大模型如何“读懂” PDF?——基于 GLM-4V-Flash 的智能文档解析原理剖析
人工智能·pdf·ocr
m5655bj16 小时前
C# 在 PDF 文档中添加电子签名
开发语言·pdf·c#
野生技术架构师16 小时前
2025年Java面试八股文大全(附PDF版)
java·面试·pdf
私人珍藏库17 小时前
[Windows] PDF 专业电子签章工具 v4.8
windows·pdf
无敌的黑星星19 小时前
office 批量word转pdf
pdf·word·vba
console.log('npc')19 小时前
vue3文件上传弹窗,图片pdf,word,结合预览kkview
前端·javascript·vue.js·pdf·word
优选资源分享19 小时前
PDF to IMG v1.0:批量PDF转图片工具
pdf·实用工具