读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
2501_9071368217 小时前
PDF Splitter Pro - PDF页面分割器
pdf·软件需求
2023框框1 天前
给PDF书籍添加书签
pdf
月屯2 天前
Pandoc 之--pdf-engine
java·开发语言·pdf
开开心心_Every2 天前
Word转PDF工具,免费生成图片型文档
网络·笔记·pdf·word·powerpoint·excel·azure
一个无名的炼丹师2 天前
[硬核实战] 解锁多模态RAG:构建能“看懂”PDF复杂图表的智能问答系统
人工智能·python·pdf·多模态·rag
非凡ghost3 天前
Xournal++(PDF文档注释工具) 中文绿色版
学习·pdf·生活·软件需求
MonkeyKing_sunyuhua3 天前
使用ARQ做PDF OCR和 图片OCR的任务的方案
pdf·ocr
2501_930707783 天前
如何使用C#代码在 PDF 中添加或删除附件
pdf
m5655bj3 天前
如何使用 Python 调整 PDF 页面顺序?
python·pdf
YuanYWRS3 天前
办公基础:实现PDF中表单不改变格式的情况下转成excel
pdf·excel