python实现pdf双页文档转png图片,png图片裁剪为左右两等分,再合并为新的pdf单页文档

一、问题引入

现有pdf双页文档如下:

现按照以下页码次序对pdf双页文档进行裁剪和拼接,其中有两点需要特别注意,一是封面页只裁剪中间部分,二是文档是从右往左的顺序排版的

二、python程序

python 复制代码
import os
import office
from PIL import Image
import img2pdf


# 新建两个文件夹分别存储裁剪前和裁剪后的图片
def newfolders():
    for folder in ['images before cropping', 'images after cropping']:
        if os.path.isdir(folder) == False:
            os.mkdir(folder)


# pdf双页文档转为多张png图片
def pdf_to_images(pdf_path):
    office.pdf.pdf2imgs(pdf_path=pdf_path, out_dir='images before cropping')


# png图片批量裁剪为左右两等分
def images_cropping(pdf_name):
    images = os.listdir('images before cropping')
    images.sort(key=lambda x: int(x.replace(' [' + pdf_name.split('.')[0] + ']-', '').split('.')[0]))
    index = 0
    for image in images:
        image = Image.open('images before cropping/' + image)
        width, height = image.size
        item_width = int(width / 2)
        item_height = int(height / 2)
        box_list = []
        if index == 0:
            box = (int(item_width / 2), 0, int(item_width * 3 / 2), height)
            box_list.append(box)
        else:
            for i in range(2):
                # box = (i * item_width, 0, (i + 1) * item_width, height)  # 从左往右
                box = (abs(i - 1) * item_width, 0, (abs(i - 1) + 1) * item_width, height)  # 从右往左
                box_list.append(box)
        image_list = [image.crop(box) for box in box_list]
        for j in range(len(image_list)):
            image_list[j].save('images after cropping/' + str(2 * index + 1 + j) + '.png', 'PNG')
        index += 1


# 裁剪后的png图片合并为新的pdf单页文档
def images_to_pdf(pdf_name):
    images = os.listdir('images after cropping')
    images.sort(key=lambda x: int(x.split('.')[0]))
    images = ['images after cropping/' + i for i in images]
    with open('pdf/' + pdf_name, 'wb') as f:
        f.write(img2pdf.convert(images))


if __name__ == '__main__':
    pdf_name = '名探偵コナン日本語版第100巻.pdf'
    new_pdf_name = '名侦探柯南日文版第100卷.pdf'
    pdf_path = 'pdf/' + pdf_name
    newfolders()  # 新建两个文件夹分别存储裁剪前和裁剪后的图片
    pdf_to_images(pdf_path)  # pdf双页文档转为多张png图片
    images_cropping(pdf_name)  # png图片批量裁剪为左右两等分
    images_to_pdf(new_pdf_name)  # 裁剪后的png图片合并为新的pdf单页文档

    # 文档树:
    # │  main.py
    # │
    # ├─images after cropping
    # │      1.png
    # │      10.png
    # │      100.png
    # │      101.png
    # │      102.png
    # │      103.png
    #        ......
    # │      95.png
    # │      96.png
    # │      97.png
    # │      98.png
    # │      99.png
    # │
    # ├─images before cropping
    # │      [名探偵コナン日本語版第100巻]-0.jpg
    # │      [名探偵コナン日本語版第100巻]-1.jpg
    # │      [名探偵コナン日本語版第100巻]-10.jpg
    # │      [名探偵コナン日本語版第100巻]-100.jpg
    # │      [名探偵コナン日本語版第100巻]-11.jpg
    # │      [名探偵コナン日本語版第100巻]-12.jpg
    # │      [名探偵コナン日本語版第100巻]-13.jpg
    #        ......
    # │      [名探偵コナン日本語版第100巻]-95.jpg
    # │      [名探偵コナン日本語版第100巻]-96.jpg
    # │      [名探偵コナン日本語版第100巻]-97.jpg
    # │      [名探偵コナン日本語版第100巻]-98.jpg
    # │      [名探偵コナン日本語版第100巻]-99.jpg
    # │
    # └─pdf
    #        名侦探柯南日文版第100卷.pdf
    #        名探偵コナン日本語版第100巻.pdf

三、效果展示

相关推荐
Ven%1 小时前
从单轮问答到连贯对话:RAG多轮对话技术详解
人工智能·python·深度学习·神经网络·算法
谈笑也风生1 小时前
经典算法题型之复数乘法(二)
开发语言·python·算法
先知后行。2 小时前
python的类
开发语言·python
dyxal2 小时前
Python包导入终极指南:子文件如何成功调用父目录模块
开发语言·python
nnerddboy2 小时前
解决传统特征波段选择的不可解释性:2. SHAP和LIME
python·机器学习
电商API&Tina2 小时前
【电商API接口】关于电商数据采集相关行业
java·python·oracle·django·sqlite·json·php
weixin_421585012 小时前
解释代码:val_pred = vxm_model.predict(val_input)--与tensor对比
python
xwill*2 小时前
python 字符串拼接
linux·windows·python
superman超哥3 小时前
仓颉锁竞争优化深度解析
c语言·开发语言·c++·python·仓颉
一晌小贪欢3 小时前
【Python办公自动化】Python办公自动化常用库新手指南
开发语言·python·python自动化办公·python3·python办公自动化·python办公