读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
喝凉白开都长肉的大胖子5 小时前
比较 main.tex 的两个不同版本(例如旧版和新版),并生成一个带有修改标记(如删除线、高亮、修订注释)的 PDF 或文本输出。
pdf·latex
weixin_441003645 小时前
2025教资面试真题电子版|科目试讲+结构化真题解析|完整PDF
面试·职场和发展·pdf
小兜全糖(xdqt)5 小时前
python ppt转pdf以及图片提取
python·pdf·powerpoint
番石榴AI5 小时前
视频转ppt/pdf V2.0版(新增转为可编辑PPT功能)
人工智能·pdf·powerpoint
_深巷的猫8 小时前
python爬虫自动库DrissionPage保存网页快照mhtml/pdf/全局截图/打印机另存pdf
pdf
『 时光荏苒 』12 小时前
网页变成PDF下载到本地
前端·javascript·pdf·网页下载成
chenchihwen13 小时前
AI代码开发宝库系列:PDF文档解析MinerU
人工智能·python·pdf·dashscope
Source.Liu1 天前
【PDF-rs】pdf子项目的lib.rs文件
pdf
学会用脚编程1 天前
word转Pdf,在window正常,放在linux服务器上就转出来中文是空白
pdf·word
机器学习算法与Python实战1 天前
最好的大模型训练、微调教程.pdf
pdf