Python读取PDF文字 去掉页眉页脚

使用PyMuPDF(即fitz)读取PDF中的text时,会把页码也读进来。所以,有时候就需要让程序忽略页眉和页脚,或者直接删除页眉和页脚。

根据fitz的文档:Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域,于是大致代码如下:

python 复制代码
doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)
相关推荐
汤姆百宝箱13 小时前
2026新版教材电子课本1-9年级新教材PDF(完整电子版下载)
pdf·小学课本·初中课本·电子教材·电子课本·2026新教材·2026新课本
开开心心就好13 小时前
内存清理软件灵活设置,自动阈值快捷键清
运维·服务器·windows·pdf·harmonyos·risc-v·1024程序员节
海兰13 小时前
【接上篇】多格式文档支持扩展方案(PDF_Word_Excel)
pdf·word·excel
鸿乃江边鸟14 小时前
用 oh-my-opencode 写一个word转pdf skill
pdf·大模型·opencode
软件资深者1 天前
2026 版初中几何辅助线教材 PDF|打印即提分,中考几何 “分水岭” 一键通关
学习·数学·pdf·教学·初中数学
Loo国昌2 天前
【AI应用开发实战】07_文档解析路由与质量评估:从传统PDF解析到Docling现代化方案
人工智能·后端·python·自然语言处理·pdf
开开心心就好2 天前
文字转语音无字数限,对接微软接口比付费爽
java·linux·开发语言·人工智能·pdf·语音识别
lpfasd1232 天前
适合Markdown转PDF的方案推荐
pdf
lpfasd1232 天前
PDF导出方案深度对比:性能、质量与适用场景分析
pdf·程序员创富
l1t2 天前
利用DeepSeek辅助把幻灯片markdown文件转换成pdf
人工智能·pdf