读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
千册21 小时前
pyside6 的pdf显示测试 -- 01
开发语言·python·pdf
qq_172805591 天前
Go 语言 PDF 生成库综合比较与实践指南
开发语言·golang·pdf
E_ICEBLUE1 天前
如何使用 OCR 提取扫描件 PDF 的文本(Python 实现)
java·数据库·pdf
AnySpaceOne1 天前
PDF转Word在线转换教程:多种实用方法分享
学习·pdf·word
勘察加熊人2 天前
python将pdf转txt,并切割ai
数据库·python·pdf
@小匠2 天前
iText与OpenPDF使用差异及中文处理完全指南
java·pdf
ks胤墨2 天前
Stirling PDF与cpolar:居家办公的云端PDF处理解决方案
pdf
sc_yhsheng2 天前
18j621-3通风天窗图集pdf(免费高清版)
windows·pdf
不勤奋不做蜗牛2 天前
常用PDF转换工具推荐
pdf