Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
ElasticPDF-新国产PDF编辑器6 小时前
Vue use pdf.js and Elasticpdf tutorial
vue.js·pdf
ElasticPDF-新国产PDF编辑器12 小时前
Angular 项目 PDF 批注插件库在线版 API 示例教程
前端·pdf·angular.js
夏天想13 小时前
vant4+vue3上传一个pdf文件并实现pdf的预览。使用插件pdf.js
开发语言·javascript·pdf·vant
ElasticPDF-新国产PDF编辑器14 小时前
React 项目 PDF 批注插件库在线版 API 示例教程
react.js·pdf·json
hello_simon17 小时前
在线小白工具,PPT转PDF支持多种热门工具,支持批量转换,操作简单,高效适合各种需求
pdf·html·powerpoint·excel·pdf转html·excel转pdf格式
ZhangChuChu_92481 天前
Word在生成PDF后,PDF左侧导航书签目录错误显示的解决方法
pdf·word
inxunoffice1 天前
批量将文本文件转换为 Word/PDF/Excel/图片等其它格式
pdf·word·excel
人工智能教学实践1 天前
【爬虫脚本】实现批量pdf文件下载
pdf
海峰教授2 天前
扫描仪+文档pdf编辑器+pdf格式转换器
pdf
Li_na_na012 天前
解决安卓手机WebView无法直接预览PDF的问题(使用PDF.js方案)
android·pdf·uni-app·html5