读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。

txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

python 复制代码
text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

--- 1 ---  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
python 复制代码
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n--- \d+ ---( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:

相关推荐
软件资深者9 小时前
全能图片缩略图显示工具,体积较大,直接显示AI,PSD,EPS,PDF,INDD,TIFF,CR2,RAW等格式缩略图的图像解码包
windows·microsoft·pdf·windows11·系统修复
DS随心转小程序15 小时前
AI公式不乱码
人工智能·pdf·deepseek·ds随心转
luyun02020215 小时前
PDF神仙工具,批量处理
windows·pdf·figma
s石有八九15 小时前
PDF/文档LLM作业批改:2025年研究现状、技术进展与研究空白
人工智能·python·pdf·教育·ai教育·作业批改
开开心心_Every16 小时前
PDF转图片工具推荐:免费支持批量转换
linux·运维·服务器·spring boot·edge·pdf·powerpoint
ElasticPDF-新国产PDF编辑器18 小时前
基于 PDF.js 的 PDF 文字编辑解决方案,纯前端 SDK,跨平台、框架无关、Web 原生
前端·javascript·pdf
南风微微吹20 小时前
【2026年大英赛】全国大学生英语竞赛ABCD类历年真题及答案解析PDF电子版(2012-2025年)
pdf·大英赛
x***r15121 小时前
MasterPDFportable使用步骤详解(附PDF编辑与合并教程)
pdf
10km2 天前
MCP:Trace IDE 正确配置 PDF 读取 MCP 的完整指南
ide·pdf·mcp·trae
开开心心_Every2 天前
A3试卷分割工具:免费转为A4格式可离线
游戏·随机森林·微信·pdf·excel·语音识别·最小二乘法