【fitz+PIL】PDF图片文字颜色加深

文章目录

    • [0 引言](#0 引言)
    • [1 解决思路及流程](#1 解决思路及流程)
      • [1.1 思路](#1.1 思路)
      • [1.2 代码实现](#1.2 代码实现)
    • [2 完整代码与效果](#2 完整代码与效果)
    • [3 总结](#3 总结)

0 引言

没错,这是连续剧。女友对上一篇【fitz+OpenCV】去除PDF图片中的水印得到的去水印效果很满意,于是问我可不可以再帮她处理一下另一个PDF文件,我二话不说答应了下来。原PDF文件是一本教材的电子版,每页都是一张图片,和上一篇文章中PDF的类型相同,不过本文中需要解决的问题是,原图中文字颜色太浅,看着费眼睛,如下图所示,需要将文字颜色加深。

1 解决思路及流程

1.1 思路

在大致分析了PDF组成后(其中红色的为笔记标注,和页面图片单独存在),这个问题的解决思路也相当明晰了,便是将每页的图片单独提取出来,对图片进行文字加深处理,这里可以通过增加图片对比度实现(对比度就是画面中明暗部分的亮度比,对比度越高,则图像中明暗部分的差异就越大。根据这一原理,将对比度增大后,原本颜色较深的文字部分将会更深,反之,颜色较浅的背景将会更亮)。

1.2 代码实现

在代码方面中,我们依然采用fitzpip install PyMuPDF)作为PDF处理库,图片的处理则是基于图像库PILpip install pillow)。

首先我们打开待处理的PDF文件,对每页进行遍历,提取每页的图片,为了防止个别页面存在多张图片,又嵌套了个for循环以遍历页内图片。

python 复制代码
doc = fitz.open(input_pdf)  # 打开原PDF
for page_num in range(len(doc)):
    # 获取页面图片
    page = doc.load_page(page_num)
    page_imgs = page.get_images()
    for page_img in page_imgs:
        xref = page_img[0]
        img_info = doc.extract_image(xref)
        img = Image.open(io.BytesIO(img_info["image"]))  # 转换为 PIL Image,方便处理

接下来处理每张图片,factor为对比度值,取1函数返回原图像,如果要增加图像对比度,该参数应大于1.0,本文示例中取3.0。

python 复制代码
# 增强图片
enhancer = ImageEnhance.Contrast(img)  # 增强对比度(使文字更清晰)
enhanced_img = enhancer.enhance(factor=contrast)

用增强后的图片替换原图片,这一步仅仅改变了背景图片的信息,不影响前景的笔记标注。其中quality参数用于控制图像的质量,决定图像的体量与清晰度,progressive用于控制是否生成渐进式JPEG,实测该保存方式得到的图片体积更小,dpi参数用于控制图片两个方向的dpi。

python 复制代码
# 替换原图片
bio = io.BytesIO()
enhanced_img.save(bio, format=img_info["ext"], quality=50, progressive=True, dpi=(300, 300))
page.replace_image(xref, stream=bio)

最后一步,在所有页面处理完成后,保存输出处理后的PDF。

python 复制代码
# 保存PDF
doc.save(output_pdf)
doc.close()

2 完整代码与效果

完整代码如下:

python 复制代码
import io
import fitz  # PyMuPDF
from PIL import Image, ImageEnhance


def process_pdf(input_pdf, output_pdf, contrast):
    doc = fitz.open(input_pdf)  # 打开原PDF
    for page_num in range(len(doc)):
        # 获取页面图片
        page = doc.load_page(page_num)
        page_imgs = page.get_images()
        for page_img in page_imgs:
            xref = page_img[0]
            img_info = doc.extract_image(xref)
            img = Image.open(io.BytesIO(img_info["image"]))  # 转换为 PIL Image,方便处理
            # 增强图片
            enhancer = ImageEnhance.Contrast(img)  # 增强对比度(使文字更清晰)
            enhanced_img = enhancer.enhance(factor=contrast)
            # 替换原图片
            bio = io.BytesIO()
            enhanced_img.save(bio, format=img_info["ext"], quality=50, progressive=True, dpi=(300, 300))
            page.replace_image(xref, stream=bio)

    # 保存PDF
    doc.save(output_pdf)
    doc.close()
    print(f"PDF处理完成!输出文件: {output_pdf}")


if __name__ == "__main__":
    input_pdf = 'example.pdf'
    output_pdf = 'output.pdf'
    process_pdf(input_pdf, output_pdf, contrast=3.0)

处理效果如下图所示:

效果还是不错的。

3 总结

该方法和上一篇文章中的方法存在一个共性问题,便是生成的PDF文件体量太大,比原本文件的大了近3~4倍,该问题打算后面有时间研究一下。

相关推荐
开开心心_Every20 小时前
支持自定义名单的实用随机抽签工具
运维·服务器·pdf·电脑·excel·启发式算法·宽度优先
shuaiqinke2 天前
【分享】Master PDF Editor v5.9.98便携版 多功能PDF编辑工具
智能手机·pdf
jianwuhuang822 天前
Kimi怎么导出pdf
人工智能·chatgpt·pdf·deepseek·ai导出鸭
daanpdf2 天前
四六级翻译《中国文化概况》双语批注版pdf百度网盘
pdf
daanpdf2 天前
古籍原文周易(易经)全文完整版PDF
pdf
daanpdf2 天前
大学英语四级试卷历年真题及答案PDF电子版百度网盘
pdf
hikktn2 天前
Excel模板智能转PDF:零硬编码的通用打印解决方案
windows·pdf
m0_502724952 天前
vue3生成pdf
前端·javascript·vue.js·pdf
驯龙高手_追风2 天前
Adobe Acrobat PDF阅读器设置默认滚动翻页
adobe·pdf·adobe acrobat reader·adobe reader
优化控制仿真模型3 天前
【26年社工】初级社会工作者历年真题及答案PDF电子版(2010-2025年)
经验分享·pdf