解决pdfplumber解析出来日期出错问题

解决pdfplumber解析出来日期出错问题

使用pdfplumber库解析pdf文档时会出现日期的错乱,即年月日在一行,但具体数字在下一行。错误类型如下:

原文:发行日期位2023年4月5日

pdfplumber库解析出来效果如下:

发行日期位 年 月 日

2023 4 5

解决办法如下,把解析出来的文本传入这个函数中,解析请按行解析,并保留换行符。

python 复制代码
def pdf(text):
    lines = text.split("\n")
    result_text = []
    for i in range(0, len(lines)-1):
        characters1 = [char for char in lines[i]]
        characters2 = lines[i+1].split()

        # 遍历列表中的每个元素
        for item in characters2:
            # 判断元素是否只包含字母和数字
            if not item.isalnum():
                break
        else:
            # 创建一个空列表来存储空格元素的索引
            space_indexes = []
            if characters1[0] == '年':
                characters1.insert(0, ' ')
            # 使用enumerate()函数遍历列表,并获取空格元素的索引
            for index, item in enumerate(characters1):
                if item == ' ':
                    space_indexes.append(index)

            for k, j in zip(space_indexes, characters2):
                characters1[k] = j
            result = ''.join(characters1)
            result_text.append(result)
    wenben = ''.join(result_text)
    return wenben

def paqu(url):
    header={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"}
    res = requests.get(url=url, headers=header)
    result = res.content
    # 使用pdfplumber提取文字
    if result == b'':
        text = "*"
    else:
        with pdfplumber.open(io.BytesIO(result), strict_metadata=False) as pdf:
            text = ""
            for page in pdf.pages:
                for line in page.extract_text().split('\n'):
                    if line.strip():  # 去除空行
                        text += line + '\n'
    return text
相关推荐
m0_377618231 分钟前
HTML怎么显示速率限制重置时间_HTML X-RateLimit-Reset解析【说明】
jvm·数据库·python
u0109147608 分钟前
C#怎么实现OAuth2.0授权_C#如何对接第三方快捷登录【核心】
jvm·数据库·python
2301_7775993713 分钟前
如何显著提升 Google Sheets 数据库批量更新脚本的执行效率
jvm·数据库·python
2201_7610405920 分钟前
bootstrap怎么给div添加自定义的边框样式
jvm·数据库·python
Java后端的Ai之路22 分钟前
当大模型开始“水土不服“:从通才到专才的进化论——Fine-tuning 企业级实战全攻略
人工智能·python·langchain·rag·lcel
weixin_5689960625 分钟前
Golang怎么用K8s Job执行一次性任务_Golang如何用Job资源运行批处理和迁移任务【操作】
jvm·数据库·python
耿雨飞28 分钟前
Python 后端开发技术博客专栏 | 第 09 篇 GIL 深度解析与并发编程实战 -- 多线程、多进程、协程的选型
开发语言·python
Ulyanov33 分钟前
像素迷宫:路径规划算法的可视化与实战
大数据·开发语言·python·算法
源码之家34 分钟前
计算机毕业设计:Python农产品销售数据可视化分析系统 Django框架 数据分析 可视化 大数据 大模型 机器学习(建议收藏)✅
python·信息可视化·数据分析·django·flask·课程设计
2401_8877245035 分钟前
如何通过JDBC写入BLOB文件_setBinaryStream上传图片与大文件至数据库
jvm·数据库·python