读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
DN金猿1 小时前
Vue移动端网页(H5)预览pdf文件(pdfh5和vue-pdf)(很详细)
前端·vue.js·pdf
CodeCraft Studio10 小时前
【实用技能】使用 TX Text Control 创建带有嵌入式附件的 PDF 文档
pdf·asp.net·.net
小小大侠客13 小时前
IText创建加盖公章的pdf文件并生成压缩文件
java·pdf·itext
DevOpenClub18 小时前
PDF 转 HTML API 数据接口
pdf
zhy8103021 天前
.net6 使用 FreeSpire.XLS 实现 excel 转 pdf - docker 部署
pdf·.net·excel
慧都小妮子1 天前
Spire.PDF for .NET【页面设置】演示:打开 PDF 时自动显示书签或缩略图
java·pdf·.net
join81 天前
解决vue-pdf的签章不显示问题
javascript·vue.js·pdf
小行星1251 天前
前端把dom页面转为pdf文件下载和弹窗预览
前端·javascript·vue.js·pdf
穆友航2 天前
PDF内容提取,MinerU使用
数据分析·pdf
拾荒的小海螺3 天前
JAVA:探索 PDF 文字提取的技术指南
java·开发语言·pdf