读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
我乃世间蓬蒿人1 天前
使用PdfBox对pdf表单进行填报,在长文本时上下行间距过大问题!
pdf
CodeCraft Studio1 天前
国产化PDF处理控件Spire.PDF教程:使用Python批量转换PDF为PDF/A
开发语言·python·pdf·spire.pdf·pdf/a·pdf转pdf/a·pdf开发组件
YJlio1 天前
PsPing 学习笔记(14.10):常见错误与排错思路——从“不可达”到“端口拒绝”
开发语言·笔记·python·学习·django·pdf·pygame
wangchensong1 天前
pdf防泄漏-lockbox使用心得
pdf
SJjiemo1 天前
PDFelement 12 万能的PDF阅读编辑工具
pdf
bosins1 天前
基于Python实现PDF转图片工具
开发语言·python·pdf
开开心心_Every1 天前
多功能抽奖软件:游戏化互动体验
数据库·游戏·微信·pdf·excel·语音识别·ruby
深念Y1 天前
学习通下载老师没有开放下载的文档的方法
学习·pdf·word·文档·下载·学习通·开发者模式
再创世纪1 天前
PDF单文件盖章工具
pdf
lyx49491 天前
使用Python整体高效压缩PDF文件
开发语言·python·pdf