通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。
txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码
下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。
python
text = """
这是第一段文本。
- 1 -
这是第二段文本。
--- 1 ---
这是第三段文本。
1
这是第四段文本。
I
这是第五段文本。
"""
python
import re
# 匹配页码信息的正则表达式
page_nums = [
r'\n- \d+ -( *?)\n',
r'\n--- \d+ ---( *?)+\n',
r'\n\d+( *?)\n',
r'\nI+( *?)\n',
]
# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]
# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
text = pattern.sub('', text)
# 输出清理后的文本
print(text)
程序运行结果如下,删除掉页码之后的文本如下: