Python实现文件夹中文件名与Excel中存在的文件名进行对比,并进行删除操作

以下python程序版本为Python3.13.0

1.请写一个python程序,实现以下逻辑:从文件夹获取所有文件名,与Excel中的fileName列进行对比,凡是不在该文件夹下的文件名,从Excel文档中删除后,并将Excel中fileName和fileLength数据保存至新的excel文档

复制代码
import os
import pandas as pd

def filter_excel_by_folder(folder_path, excel_path, output_path=None, sheet_name=0, column_name='fileName'):
    """
    过滤Excel文件,仅保留文件夹中存在的文件名对应的行

    参数:
    folder_path (str): 要检查的文件夹路径
    excel_path (str): 需要过滤的Excel文件路径
    output_path (str, 可选): 输出Excel文件路径,默认为None(覆盖原文件)
    sheet_name (str/int, 可选): 工作表名称或索引,默认为第一个工作表
    column_name (str, 可选): 包含文件名的列名,默认为'fileName'
    """
    try:
        # 获取文件夹中的所有文件名(包括扩展名)
        folder_files = set(os.listdir(folder_path))
        print(f"在文件夹中找到 {len(folder_files)} 个文件")

        # 读取Excel文件
        df = pd.read_excel(excel_path, sheet_name=sheet_name)
        original_count = len(df)
        print(f"Excel中原有 {original_count} 行数据")

        # 检查文件名列是否存在
        if column_name not in df.columns:
            raise ValueError(f"Excel中找不到列 '{column_name}'")

        # 过滤数据:仅保留文件夹中存在的文件名
        filtered_df = df[df[column_name].isin(folder_files)]
        new_count = len(filtered_df)
        removed_count = original_count - new_count

        columns_to_save = ['fileName', 'fileLength']

        # 保存需要的列
        df_result = filtered_df[columns_to_save]

        print(f"删除了 {removed_count} 行不存在于文件夹中的数据")
        print(f"保留 {new_count} 行数据")

        # 保存结果
        if output_path is None:
            output_path = excel_path  # 覆盖原文件
            print("将覆盖原始Excel文件")
        else:
            print(f"将保存到新文件: {output_path}")

        # 保存到Excel
        df_result.to_excel(output_path, index=False)
        print("操作完成!")

        return removed_count

    except Exception as e:
        print(f"发生错误: {str(e)}")
        return -1

2.请写一个python程序,实现以下逻辑:从文件夹获取所有文件名,与Excel中的fileName列进行对比,凡是不在该Excel的文件名,将其从文件夹中删除

复制代码
import os
import pandas as pd


def delete_unmatched_files(excel_path='', folder_path='', sheet_name=2, column_name='path'):
    """
    根据Excel中的文件名删除文件夹中不匹配的文件

    参数:
        excel_path (str): Excel文件路径
        folder_path (str): 要清理的文件夹路径
        sheet_name (str/int): Excel工作表名或索引,默认为第一个工作表
        column_name (str): 包含文件名的列名,默认为'文件名'
    """
    try:
        # 从Excel读取文件名列表
        df = pd.read_excel(excel_path, sheet_name=sheet_name)
        excel_files = set(df[column_name].dropna().astype(str).tolist())

        print(f"Excel中找到 {len(excel_files)} 个文件名")

        # 获取文件夹中的所有文件
        folder_files = set(os.listdir(folder_path))
        print(f"文件夹中找到 {len(folder_files)} 个文件")

        # 找出需要删除的文件(在文件夹中但不在Excel中的文件)
        files_to_delete = folder_files - excel_files

        if not files_to_delete:
            print("没有需要删除的文件")
            return

        print(f"找到 {len(files_to_delete)} 个需要删除的文件")

        # 删除文件
        deleted_count = 0
        for file in files_to_delete:
            file_path = os.path.join(folder_path, file)
            try:
                if os.path.isfile(file_path):
                    os.remove(file_path)
                    print(f"已删除: {file}")
                    deleted_count += 1
            except Exception as e:
                print(f"删除 {file} 时出错: {str(e)}")

        print(f"删除完成,共删除了 {deleted_count} 个文件")

    except Exception as e:
        print(f"程序出错: {str(e)}")
相关推荐
CHENFU_JAVA7 小时前
使用EasyExcel实现Excel单元格保护:自由锁定表头和数据行
java·excel
葡萄城技术团队9 小时前
借助 LAMBDA 公式,实现单元格区域高效转换
excel
mudtools19 小时前
使用二次封装的Excel COM 组件操作Excel\WPS ET中的区域、行和列
excel
揭老师高效办公3 天前
在Excel和WPS表格中拼接同行列对称的不连续数据
excel·wps表格
用户0332126663673 天前
Java 设置 Excel 行高列宽:告别手动调整,拥抱自动化高效!
java·excel
专注VB编程开发20年3 天前
.NET组件读取压缩包中的内存数据电子表格XLSX文件和图片,不需要解压
linux·服务器·windows·c#·.net·excel·zip
菌王3 天前
EXCEL自动调整列宽适应A4 A3 A2
excel
专注VB编程开发20年4 天前
对excel xlsx文件格式当成压缩包ZIP添加新的目录和文件后,OpenXml、NPOI、EPPlus、Spire.Office组件还能读出来吗
数据库·c#·excel
用户0332126663674 天前
Java 将 CSV 转换为 Excel:告别繁琐,拥抱高效数据处理
java·excel
lijingguang4 天前
excel 破解工作表密码
excel