Java 实现遍历一个文件夹,文件夹有100万数据,获取到修改时间在2天之内的数据

目录

  • [1 需求](#1 需求)
  • [2 实现1(第一种方法)](#2 实现1(第一种方法))
  • [2 实现2 (推荐使用这个,快)](#2 实现2 (推荐使用这个,快))
  • [3 实现3(推荐)](#3 实现3(推荐))

1 需求

现在有一个文件夹,里面会一直存数据,动态的存数据,之后可能会达到100万,1千万数据。

那么为了查询这个文件夹里面2天之内的数据,根据修改时间进行查询,我们如何操作

2 实现1(第一种方法)

java 复制代码
 /**
     * 遍历出一个文件夹下的全部的数据
     * */
    public static void getAllFile(File fileInput, List<File> allFileList) {
        // 获取文件列表
        File[] fileList = fileInput.listFiles();
        if (!ArrayUtil.isEmpty(fileList)) {
            for (File file : fileList) {
                if (file.isDirectory()) {
                    // 递归处理文件夹
                    // 如果不想统计子文件夹则可以将下一行注释掉
                    getAllFile(file, allFileList);
                } else {
                    // 如果是文件则将其加入到文件数组中
                    allFileList.add(file);
                }
            }
        }
    }
 /**
     * 一个文件夹


下前两天的全部的数据
     * */
    public static List<File> listOrderByDate(String fliePath) {
        // 存放的是一个文件夹下的全部的数据
        List<File> allFileList = new ArrayList<>();
        getAllFile(new File(fliePath), allFileList);
        long start = DateUtil.offsetDay(new Date(), -2).getTime();
        long end = new Date().getTime();
        List<File> collect = allFileList.parallelStream().filter(x -> x.lastModified() > start && x.lastModified() < end).collect(Collectors.toList());
        List<File> sortedCollect = collect.stream().sorted((t1, t2) -> Long.compare(t2.lastModified(), t1.lastModified())).collect(Collectors.toList());
        return sortedCollect;
    }
java 复制代码
 public static void main(String[] args) {

        long beginTime = System.currentTimeMillis();
        String psth = "D:\\100w\\dest";
        // 遍历文件夹
        List<File> files = listOrderByDate(psth);
        System.out.println(files.size());

        long endTime = System.currentTimeMillis();
        long l = endTime - beginTime;
        System.out.println(l/1000);


使用上面的方法,72608个文件,大小 都是50MB 左右的文件,花费了15秒

2 实现2 (推荐使用这个,快)

java 复制代码
 public static void main(String[] args) throws InterruptedException, ExecutionException {

        long beginTime = System.currentTimeMillis();
        String folderPath = "D:\\100w\\dest"; // 替换为实际的文件夹路径
        int numThreads = Runtime.getRuntime().availableProcessors(); // 获取可用的处理器核心数

        // 获取当前时间
        Date currentDate = new Date();

        // 计算两天前的时间
        long twoDaysAgoMillis = currentDate.getTime() - 2 * 24 * 60 * 60 * 1000;

        // 创建文件对象表示文件夹
        File folder = new File(folderPath);

        // 获取文件夹下的所有文件
        File[] files = folder.listFiles();

        // 创建线程池
        ExecutorService executor = Executors.newFixedThreadPool(numThreads);

        // 创建任务列表
        List<Callable<List<File>>> tasks = new ArrayList<>();

        // 将文件列表分成多个子列表
        int batchSize = 10000; // 每个子列表的大小
        if (files != null) {
            for (int i = 0; i < files.length; i += batchSize) {
                final int startIndex = i;
                final int endIndex = Math.min(i + batchSize, files.length);

                // 创建子任务,每个子任务处理一个子列表的文件
                Callable<List<File>> task = () -> {
                    List<File> result = new ArrayList<>();
                    for (int j = startIndex; j < endIndex; j++) {
                        File file = files[j];
                        // 检查文件最后修改时间是否在两天内
                        if (file.lastModified() >= twoDaysAgoMillis) {
                            result.add(file);
                        }
                    }
                    return result;
                };

                tasks.add(task);
            }
        }

        // 提交并行任务
        List<Future<List<File>>> futures = executor.invokeAll(tasks);

        // 收集结果
        List<File> result = new ArrayList<>();
        for (Future<List<File>> future : futures) {
            result.addAll(future.get());
        }

        // 关闭线程池
        executor.shutdown();

        // 处理结果,例如打印文件名
        System.out.println(result.size());

        long endTime = System.currentTimeMillis();
        long l = endTime - beginTime;
        System.out.println(l/1000);

获取是1秒

3 实现3(推荐)

java 复制代码
    public static void main(String[] args) {
        long start = System.currentTimeMillis();
        String folderPath = "D:\\100w\\dest"; // 替换为实际的文件夹路径
        List<File> modifiedFiles = getModifiedFilesWithinTwoDays(folderPath);
        System.out.println("修改时间在2天之内的文件数量: " + modifiedFiles.size());
        long end = System.currentTimeMillis();
        long ss =  end - start;
        System.out.println(ss/1000);
        // 处理修改时间在2天之内的文件数据
    }

    public static List<File> getModifiedFilesWithinTwoDays(String folderPath) {
        List<File> modifiedFiles = new ArrayList<>();
        File folder = new File(folderPath);

        if (folder.exists() && folder.isDirectory()) {
            File[] files = folder.listFiles();
            if (files != null) {
                Instant twoDaysAgo = Instant.now().minus(Duration.ofDays(2));

                for (File file : files) {
                    try {
                        BasicFileAttributes attrs = Files.readAttributes(file.toPath(), BasicFileAttributes.class);
                        Instant lastModifiedTime = attrs.lastModifiedTime().toInstant();
                        if (lastModifiedTime.isAfter(twoDaysAgo)) {
                            modifiedFiles.add(file);
                        }
                    } catch (Exception e) {
                        e.printStackTrace();
                    }
                }
            }
        }

        return modifiedFiles;
    }
相关推荐
刘婉晴6 分钟前
【蓝桥杯研究生组】第14届Java试题答案整理
java·蓝桥杯
芝士就是力量啊 ೄ೨7 分钟前
C#泛型中的default关键字:为值类型与引用类型赋予默认值
开发语言·c#
Upuping18 分钟前
「全网最细 + 实战源码案例」设计模式——外观模式
java·后端·设计模式
无名之逆33 分钟前
搭建SSL邮件服务器
开发语言·网络·网络协议·http·https·ssl·request
等一场春雨39 分钟前
Java 21 使用新的日期和时间 API (java.time) 计算当前日期是某活动起始时间的第几天
java·开发语言
Better Bench1 小时前
【Python实现连续学习算法】复现2018年ECCV经典算法RWalk
python·连续学习·路径优化·增量学习·路径积分·重要性矩阵·记忆保持
qq_273900231 小时前
pytorch 计算图中的叶子节点介绍
人工智能·pytorch·python
AI向前看1 小时前
T-SQL语言的正则表达式
开发语言·后端·golang
小舞O_o1 小时前
RP2K:一个面向细粒度图像的大规模零售商品数据集
人工智能·pytorch·python·分类·数据集
南宫生1 小时前
力扣-数据结构-12【算法学习day.83】
java·数据结构·学习·算法·leetcode