Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
小为资料库34 分钟前
英语六级听力历年真题汇总电子版PDF(含听力音频mp3、答案解析及听力原文)
pdf·音视频
usdoc文档预览1 小时前
国产化踩坑:Vue3 / React / 小程序如何免插件实现 OFD 及复杂 Office 文档同屏预览
前端·javascript·react.js·小程序·pdf·word·office文件在线预览
小婷资料库1 小时前
河北省中考历年真题及答案解析9科全电子版PDF(2008-2025年)
pdf
优化控制仿真模型2 小时前
【2026年5月最新】初级会计师考试真题试卷及答案PDF
经验分享·pdf
小为资料库2 小时前
英语四级听力历年真题汇总电子版PDF(含听力音频mp3、答案解析及听力原文)
pdf·音视频
小短腿的代码世界2 小时前
KDReports源码深度解析:Qt报表引擎如何做到“所见即所得“?从模板引擎到PDF导出的完整渲染管线揭秘
网络·qt·pdf
生而为虫1 天前
Windows]PDF转换工具1.0
pdf
daanpdf1 天前
人教版八年级下册英语单词表及听力音频2026
pdf
其实秋天的枫1 天前
【2026.6月英语六级】英语六级高频核心词汇1500个+历年真题PDF电子版
经验分享·pdf