Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
海绵波波1071 天前
Zotero使用(一)PDF文件导入不会自动识别
pdf
2401_856926931 天前
图片转PDF技巧揭秘:四款高效工具推荐!
学习·pdf·图片转pdf·图片转pdf工具
alex18012 天前
python实现多个pdf文件合并
java·python·pdf
似璟如你2 天前
Vue点击按钮生成pdf文件/Vue点击按钮生成png图片
pdf
deephub2 天前
概率分布深度解析:PMF、PDF和CDF的技术指南
人工智能·python·机器学习·pdf·概率论
William.csj2 天前
PDF——压缩大小的方法
pdf
百事牛2 天前
【方法】如何禁止PDF转换成其他格式文件?
windows·pdf
白手小弟3 天前
docker部署Stirling-PDF
docker·容器·pdf
咔咔学姐kk3 天前
2024最新版,人大赵鑫老师《大语言模型》新书pdf分享
数据库·人工智能·语言模型·自然语言处理·pdf·知识图谱·产品经理
zhang-ge3 天前
python提取pdf表格到excel:拆分、提取、合并
python·pdf·excel