PDF加粗内容重复读取解决方案

文章目录

前言

在使用pdfplumber读取PDF的过程中,由于加黑的内容会被莫名其妙的读取两次,带来了很大的困扰。这篇文章将给出解决方案。

发现问题

在在使用pdfplumber读取PDF的过程中,读取普通内容是完全没有问题的。但是该公司早期PDF并未完全规范的过程中,有些标题加粗了,而有些却没有。加粗的标题将会被读取两次,比如好好的123456,加粗后将会被读取为112233445566。这可不太好。

解决方案

问题分析

首先我们需要明白,加粗的内容只会被连续读取,而不会被随机读取,这一点使得字符串具备了一定的规律。所以循环或者递归都是可行的,只是我们需要记住递归的最大深度为1000

其次我们需要明确,不是所有的连续内容都应该被删除。比如111被读成了111111,那可不能删的只剩下1,这就又和PDF上想要传达的内容不一致了。所以正则表达式也是不能乱用的。

大致逻辑

既然有这些要求,我们就好办了。

我们考虑极端场景:111111。我们就直接先数一数连续重复有几个,然后保留一半就好了。

然后再考虑一般场景:111111222222333333。在处理过程中,实际上也就是相当于把字符串拆成了3份,每份利用极端场景111111的做法去做。

show my code

知道该怎么办了就直接干吧。

虽然我们现在是针对加粗被重复读取的问题,字符串中的每一种字符一定是双数出现,所以简单一点的话就可以这么做:

python 复制代码
def drop_duplicates(arr):
  result, i = [], 0
  while i < len(arr):
    count = 1
    # 计算连续相同元素的数量
    while i + count < len(arr) and arr[i] == arr[i + count]:
      count += 1
    # 保留一半
    result.extend([arr[i]] * count // 2)
    i += count  # 处理下一段
  return ''.join(result)

当然,考虑到并不一定具备跟现在一样完全理想的场景,所以这里也考虑了万一真的有一个数字落单的情况:

python 复制代码
def drop_duplicates(arr):
  result, i = [], 0
  while i < len(arr):
    count = 1
    # 计算连续相同元素的数量
    while i + count < len(arr) and arr[i] == arr[i + count]:
      count += 1
    # 只有一个落单的话,1 // 2 = 0,这就不对了,所以上个保险,最低只能为1
    result.extend([arr[i]] * max(1, count // 2))
    i += count  # 处理下一段
  return ''.join(result)

解决。

相关推荐
Srlua5 分钟前
周期性移动模式地铁乘客流量预测
python·数据分析
易辰君7 分钟前
【Python爬虫实战】深入解析 Scrapy:从阻塞与非阻塞到高效爬取的实战指南
开发语言·python
FFDUST7 分钟前
C++ 优先算法 —— 无重复字符的最长子串(滑动窗口)
c语言·c++·算法·leetcode
python收藏家22 分钟前
如何在Python中进行数学建模?
python
m0_7380545623 分钟前
【leetcode】全排列 回溯法
c++·算法·leetcode·回溯法
ZZZ_O^O35 分钟前
【贪心算法第五弹——300.最长递增子序列】
c++·学习·算法·leetcode·贪心算法
呼啦啦啦啦啦啦啦啦38 分钟前
刷题日常(移动零,盛最多水的容器,三数之和,无重复字符的最长子串)
算法·双指针·滑动窗口
Koishi_TvT39 分钟前
蓝桥杯c++算法秒杀【6】之动态规划【下】(数字三角形、砝码称重(背包问题)、括号序列、异或三角:::非常典型的必刷例题!!!)
c语言·c++·算法·性能优化·蓝桥杯·动态规划·c
孤独且没人爱的纸鹤40 分钟前
C++ 二叉搜索树(Binary Search Tree, BST)深度解析与全面指南:从基础概念到高级应用、算法优化及实战案例
c语言·数据结构·c++·算法
龙虎榜小红牛系统1 小时前
WordCloud参数的用法:
python·wordcloud