Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
verse_armour33 分钟前
markdown插入文献引用并导出pdf
pdf·markdown·pandoc·latex
月屯2 小时前
pandoc安装与使用(html、makdown转docx、pdf)
前端·pdf·html·pandoc·转docx、pdf
星空椰1 天前
Java Excel转PDF
pdf·excel
Charlene Fung1 天前
如何使用 Markdown 生成带参考文献的 PDF
论文阅读·pdf·markdown
std860211 天前
微软发布 Edge 143 稳定版:PDF 注释支持撤销重做
microsoft·edge·pdf
shadowcz0071 天前
关于GEO的研究总结#使用 Notebooklm 来研究论文和整理报告#PDF分享
人工智能·pdf
czliutz2 天前
使用pdfplumber库处理pdf文件获取文本图片作者等信息
python·pdf
archko2 天前
用rust+slint编写一个pdf阅读器
pdf
jimmyleeee2 天前
人工智能基础知识笔记二十四:构建一个可以解析PDF简历的Agent
笔记·pdf
archko2 天前
用rust+slint编写一个pdf阅读器2
pdf