多页pdf转长图

单页pdf直接打印-onenote-在该页右键,另存为图片即可。

多页pdf,期望保存为一张图片,直接可用的都需要money。可通过python库来完成:

python 复制代码
import os
from pdf2image import convert_from_path
from PIL import Image, ImageDraw


def pdf_to_images(pdf_path, img_path):
    # 转换 PDF 文件为图片
    images = convert_from_path(pdf_path)
    # 遍历图片列表并保存
    paths = []
    for i, image in enumerate(images):
        filePath = os.path.join(img_path, f"page_{i + 1}.jpg")
        if not os.path.exists(img_path):
            os.mkdir(img_path)
        image.save(filePath, "JPEG")
        paths.append(filePath)
    return paths

def stitch_images_vertically(image_paths, output_path, line_color="black", line_height=2):
    """
    将多张图片垂直拼接为一张长图,并在每页末尾添加分割线
    :param image_paths: 图片路径列表
    :param output_path: 输出图片的路径
    :param line_color: 分割线的颜色,默认为黑色
    :param line_height: 分割线的高度,默认为2像素
    """
    # 打开所有图片并获取宽度和高度
    images = [Image.open(img) for img in image_paths]
    widths, heights = zip(*(img.size for img in images))

    # 确定拼接后的图片宽度(取最大宽度)和总高度(包括分割线)
    total_width = max(widths)
    total_height = sum(heights) + line_height * (len(images) - 1)

    # 创建一个新的长图
    new_image = Image.new('RGB', (total_width, total_height), (255, 255, 255))
    draw = ImageDraw.Draw(new_image)

    # 将每张图片粘贴到长图中,并在每页末尾添加分割线
    y_offset = 0
    for img in images[:-1]:  # 不在最后一张图片后添加分割线
        new_image.paste(img, (0, y_offset))
        y_offset += img.height
        # 绘制分割线
        draw.line([(0, y_offset), (total_width, y_offset)], fill=line_color, width=line_height)
        y_offset += line_height

    # 粘贴最后一张图片
    new_image.paste(images[-1], (0, y_offset))

    # 保存长图
    new_image.save(output_path)

# 示例调用
image_paths = pdf_to_images("a.pdf", "./outputs")
output_path = "stitched_image_with_lines.png"  # 替换为输出图片路径
stitch_images_vertically(image_paths, output_path)

若保存的图片过大,可压缩下。比如:

python 复制代码
def compress_image_to_target_size(input_image_path, output_image_path, target_size, step=5):
    """
    将图片压缩到指定大小
    :param input_image_path: 输入图片路径
    :param output_image_path: 输出图片路径
    :param target_size: 目标大小(单位:字节)
    :param step: 质量调整步长
    """
    quality = 95  # 初始质量
    while True:
        with Image.open(input_image_path) as img:
            # 保存图片并调整质量
            img.save(output_image_path, quality=quality)

        # 检查文件大小
        file_size = os.path.getsize(output_image_path)
        if file_size <= target_size or quality <= 0:
            break

        # 调整质量
        quality -= step

    print(f"图片已压缩到 {file_size / (1024 * 1024):.2f} MB")

# 示例调用
compress_image_to_target_size("stitched_image_with_lines.png", "output.jpg", 2 * 1024 * 1024)
相关推荐
安全方案6 小时前
2025大模型十大安全威胁(OWASP TOP 10 LLM 2025).pdf
人工智能·安全·pdf
~欸嘿7 小时前
pdf多文件合并
java·pdf
ComPDFKit15 小时前
PDF转换Word深度评测 - ComPDFKit Conversion SDK V3.0
pdf
皓月盈江1 天前
使用谷歌浏览器自带功能将网页转换为PDF文件
chrome·pdf·html·网页转pdf·谷歌浏览器打印功能
云只上1 天前
PDF转excel+json ,vue3+SpringBoot在线演示+附带源码
前端·javascript·spring boot·后端·pdf·json·excel
令狐少侠20111 天前
AI之pdf解析:Tesseract、PaddleOCR、RapidPaddle(可能为 RapidOCR)和 plumberpdf 的对比分析及使用建议
人工智能·python·pdf
usdoc文档预览1 天前
Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取
javascript·pdf·word·ppt·office文件在线预览·word文档在线预览·ofd预览转pdf
安替-AnTi2 天前
Google Colab测试部署Qwen大模型,实现PDF转MD场景OCR 识别(支持单机环境)
pdf·ocr·多模态·qwen 2.5·图片转文本
AI偶然2 天前
AI智能体|扣子(Coze)搭建【一键转换为Word/pdf/Excel】工作流保姆级教学
人工智能·pdf·word
朴拙数科2 天前
LangChain实现PDF中图表文本多模态数据向量化及RAG应用实战指南
langchain·pdf