Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
敲代码的小吉米7 小时前
前端上传el-upload、原生input本地文件pdf格式(纯前端预览本地文件不走后端接口)
前端·javascript·pdf·状态模式
东方巴黎~Sunsiny11 小时前
EasyExcel导出excel再转PDF转图片详解
pdf·excel
aklry15 小时前
uniapp实现在线pdf预览以及下载
前端·pdf·uni-app
繁依Fanyi15 小时前
我的 PDF 工具箱:CodeBuddy 打造 PDFMagician 的全过程记录
java·pdf·uni-app·生活·harmonyos·codebuddy首席试玩官
DevOpenClub20 小时前
PPT 转高精度 PDF API 接口
pdf·powerpoint
想太多会累i1 天前
Spring Boot 使用Itext绘制并导出PDF
spring boot·pdf
zixingcai1 天前
Adobe Acrobat pro在一份PDF中插入空白页
pdf·adobe acrobat reader
課代表1 天前
AcroForm JavaScript Promise 对象应用示例: 异步加载PDF文件
开发语言·javascript·pdf·promise·对象
charlie1145141911 天前
基于Qt6 + MuPDF在 Arm IMX6ULL运行的PDF浏览器——MuPDF Adapter文档
arm开发·qt·学习·pdf·教程·设计·qt6
东风西巷2 天前
MobiPDF:安卓设备上的专业PDF阅读与编辑工具
android·智能手机·pdf·软件需求