Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
还需studystudy3 小时前
Vue——使用html2pdf插件,下载pdf文档到本地
前端·vue.js·pdf
老K(郭云开)9 小时前
最新版Edge浏览器加载ActiveX控件之Adobe PDF阅读器控件
adobe·edge·pdf
阳光帅气男孩12 小时前
php将word转换为pdf
pdf·php
顾北辰2018 小时前
PDF阅读和编辑工具——xodo
pdf
Jiaberrr2 天前
页面转 PDF 功能的实现思路与使用方法
前端·javascript·vue.js·微信小程序·pdf·uniapp
iteye_103923 天前
Apache PDFBox添加maven依赖,pdf转成图片
pdf·maven·apache
Eiceblue3 天前
.NET框架用C#实现PDF转HTML
开发语言·pdf·c#·html·.net
铁锚3 天前
PDF文件提示-文档无法打印-的解决办法
pdf
qq_工控_小白3 天前
eplan如何导出可跳转的PDF
笔记·pdf·eplan
青冘3 天前
Java开发 PDF文件生成方案
java·开发语言·pdf