Python 图片处理

Step1

提取PDF中的图片,并另存

Step2

去除灰色纸张背景

python 复制代码
import PyPDF2
from PIL import ImageEnhance,Image,ImageFilter
import cv2
import numpy as np
from skimage.filters import unsharp_mask
from skimage.filters import gaussian
from skimage.restoration import denoise_tv_chambolle

local = './'



pdf_file = open(local+'001.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)

num_pages = len(pdf_reader.pages)
print("num : "+str(num_pages))
pic_n=0
# 遍历每一页
for page_num in range(num_pages):
    # 获取当前页对象
    page_obj = pdf_reader.pages[page_num]
    # 获取当前页中的所有对象
    page_objs = page_obj['/Resources']['/XObject'].get_object()
    # 遍历每个对象
    for obj_name in page_objs:
        # 判断对象是否为图片
        if page_objs[obj_name]['/Subtype'] == '/Image':
            # 获取图片对象
            img_obj = page_objs[obj_name]
            # 获取图片数据
            img_data = img_obj.get_data()
            # 将图片数据保存为文件
            with open(local+"/99_tmp.jpg", 'wb') as img_file:
                img_file.write(img_data)
#####################################################################################
            # 图片处理
            image = Image.open(local+"/99_tmp.jpg")
            #饱和度
            enhancer = ImageEnhance.Color(image)
            C_image = enhancer.enhance(0.001)
            C_image.save("./0_tmp.jpg")

            img = cv2.imread('./0_tmp.jpg')
            # 对每个像素进行对比度调整 alpha=对比度  beta=亮度
            img_contrast = cv2.convertScaleAbs(img, alpha=1.4, beta=0)
            
####################################################################################

            pnum=str(page_num).zfill(4)
            pic_str=str(pic_n).zfill(4)
            img_path ="./image_heibai/"+ pic_str + "_" +"page_"+pnum + '.jpg'
            cv2.imwrite(img_path,img_contrast) 
            print("image : "+img_path)
            pic_n=pic_n+1

Step3

去除黑色边框

Step4

去除阴影部分,字清晰

相关推荐
计算机学姐1 分钟前
基于Python的旅游数据分析及可视化系统【2026最新】
vue.js·python·数据挖掘·数据分析·django·旅游·推荐算法
CoderYanger3 分钟前
动态规划算法-斐波那契数列模型:1.第N个泰波那契数
开发语言·算法·leetcode·动态规划·1024程序员节
红队it5 分钟前
【机器学习】python旅游数据分析可视化协同过滤算法推荐系统(完整系统源码+数据库+开发笔记+详细部署教程)✅
python·mysql·算法·机器学习·数据分析·旅游
曲幽6 分钟前
Flask项目结构详解:用蓝图实现优雅的模块化开发
python·web·route·blueprint·register
zore_c7 分钟前
【C语言】文件操作详解2(文件的顺序读写操作)
android·c语言·开发语言·数据结构·笔记·算法·缓存
weixin_421133417 分钟前
PyInstaller& Nuitka & 项目 (如 django)
后端·python·django
weixin_462446238 分钟前
使用 Python + Tkinter + openpyxl 实现 Excel 文本化转换
开发语言·python·excel
大袁同学8 分钟前
【C++完结篇】:深入“次要”但关键的知识腹地
开发语言·数据结构·c++·算法
啦啦右一9 分钟前
杂货铺 | TensorFlow GPU 无法识别问题
人工智能·python·tensorflow
廋到被风吹走10 分钟前
【JDK版本】JDK1.8相比JDK1.7 JVM(Metaspace 与 G1 GC)
java·开发语言·jvm