Python-图片去重

直接上代码

python 复制代码
# 修改一下第34行文件夹路径以及13行图片后缀名即可使用
import os
from hashlib import md5


def remove_duplicate_images(folder_path):
    image_files = []
    duplicate_images = set()

    # 遍历文件夹,找到所有 JPG 图片文件
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.lower().endswith('.jpg'):
                image_files.append(os.path.join(root, file))

    # 遍历所有图片文件,并使用哈希值比较是否完全相同
    for image_file in image_files:
        with open(image_file, 'rb') as f:
            image_data = f.read()
            image_hash = md5(image_data).hexdigest()

            if image_hash in duplicate_images:
                f.close()
                # 如果哈希值存在于重复图片集合中,则删除图片文件
                print(os.path.basename(image_file))
                os.remove(image_file)
            else:
                # 否则将哈希值添加到重复图片集合中
                duplicate_images.add(image_hash)
                f.close()


# 文件夹路径
folder_path_ = 'E:/古风/'

# 调用函数删除重复图片
remove_duplicate_images(folder_path_)
相关推荐
一个人旅程~2 小时前
Linux系统如何分区更合适?
linux·经验分享·电脑
Birdy_x8 小时前
接口自动化项目实战(1):requests请求封装
开发语言·前端·python
我爱学习好爱好爱8 小时前
Ansible 常用模块详解:lineinfile、replace、get_url实战
linux·python·ansible
中屹指纹浏览器9 小时前
2026基于内核隔离的浏览器环境虚拟化技术在企业数字化运营中的应用研究
经验分享·笔记
AF_INET610 小时前
RV1126B开发板学习篇(二)v4l2+mpp编码
c语言·经验分享·音视频·视频编解码·嵌入式软件·rv1126b
探索宇宙真理.10 小时前
WordPress CMS Commander 插件SQL漏洞 | CVE-2026-3334概念复现&研究
经验分享·eureka·安全漏洞
一轮弯弯的明月10 小时前
Python基础-速通秘籍(下)
开发语言·笔记·python·学习
千寻girling11 小时前
面试官 : “ 说一下 Python 中的常用的 字符串和数组 的 方法有哪些 ? ”
人工智能·后端·python
第一程序员11 小时前
Python基础学习路径:非科班转码者的入门指南
python·github
u01368638211 小时前
将Python Web应用部署到服务器(Docker + Nginx)
jvm·数据库·python