读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
hello_simon2 小时前
在线小白工具,PPT转PDF支持多种热门工具,支持批量转换,操作简单,高效适合各种需求
pdf·html·powerpoint·excel·pdf转html·excel转pdf格式
ZhangChuChu_92489 小时前
Word在生成PDF后,PDF左侧导航书签目录错误显示的解决方法
pdf·word
inxunoffice16 小时前
批量将文本文件转换为 Word/PDF/Excel/图片等其它格式
pdf·word·excel
人工智能教学实践18 小时前
【爬虫脚本】实现批量pdf文件下载
pdf
海峰教授2 天前
扫描仪+文档pdf编辑器+pdf格式转换器
pdf
Li_na_na012 天前
解决安卓手机WebView无法直接预览PDF的问题(使用PDF.js方案)
android·pdf·uni-app·html5
背太阳的牧羊人2 天前
使用 PyMuPDF(fitz)库打开 PDF 文件,并且是从内存中的字节流(BytesIO)读取 PDF 内容
数据库·pdf·文件处理·pymupdf·fitz
灯火不休ᝰ2 天前
前端处理pdf文件流,展示pdf
前端·pdf
梨小橙子2 天前
PPT画图,如何用Visio转化为pdf,且无白边
pdf·powerpoint
云只上2 天前
解决Luckysheet在线预览编辑Excel、PDF.....无法在同一个界面创建多个luckysheet实列问题
pdf