将三个list往一个excel表的三个sheet中写入,能用多线程提高写入速度

1. 多线程大批量写入可能导致 OOM

多线程可以加速写入操作,因为每个线程可以独立处理一个 Sheet。

但多线程会导致内存占用增加,因为多个线程可能同时将数据加载到内存中。

如果每个 List 数据量过大,而 JVM 的堆内存不够,就会触发 OOM。

2. 解决 OOM 问题的策略

为了保证程序稳定性并避免 OOM,采取以下措施:

1,使用分批处理数据 :将大的 List 分批写入,避免一次性加载所有数据到内存中。
2,使用 SXSSFWorkbook 流式写入 :它是 Apache POI 提供的专门用于大数据量 Excel 操作的类。
3,合理设置 JVM 堆内存 :通过 JVM 参数如 -Xmx2G 提高堆内存限制。
4,多线程写入:每个线程负责一个 Sheet,实现并发写入加速。

3. 代码示例

假设有三个大 List,我们分别写入 Excel 的三个 Sheet:

依赖引入

使用 Apache POI,需要添加以下依赖(Maven):

java 复制代码
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.3</version>
</dependency>
代码实现
java 复制代码
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;

import java.io.FileOutputStream;
import java.io.IOException;
import java.util.*;
import java.util.concurrent.*;

public class MultiThreadExcelWriter {

    // 方法:分批写入数据到 Sheet
    private static void writeDataToSheet(Sheet sheet, List<String> data, int batchSize) {
        int rowIndex = 0;
        for (int i = 0; i < data.size(); i += batchSize) {
            List<String> batch = data.subList(i, Math.min(i + batchSize, data.size()));
            for (String item : batch) {
                Row row = sheet.createRow(rowIndex++);
                Cell cell = row.createCell(0);
                cell.setCellValue(item);
            }
        }
    }

    public static void main(String[] args) {
        // 假设有三个大 List
        final List<String> list1 = generateLargeList(1000000); // 模拟100万条数据
        final List<String> list2 = generateLargeList(1000000);
        final List<String> list3 = generateLargeList(1000000);

        // 创建线程池,控制并发线程数
        ExecutorService executor = Executors.newFixedThreadPool(3);

        // 使用 SXSSFWorkbook 实现流式写入
        Workbook workbook = new SXSSFWorkbook();

        // 定义任务
        List<Callable<Void>> tasks = new ArrayList<>();

        tasks.add(() -> {
            Sheet sheet1 = workbook.createSheet("Sheet1");
            writeDataToSheet(sheet1, list1, 10000); // 分批写入,每批1万条
            return null;
        });

        tasks.add(() -> {
            Sheet sheet2 = workbook.createSheet("Sheet2");
            writeDataToSheet(sheet2, list2, 10000);
            return null;
        });

        tasks.add(() -> {
            Sheet sheet3 = workbook.createSheet("Sheet3");
            writeDataToSheet(sheet3, list3, 10000);
            return null;
        });

        try {
            // 执行任务
            executor.invokeAll(tasks);

            // 将数据写入 Excel 文件
            try (FileOutputStream fos = new FileOutputStream("output.xlsx")) {
                workbook.write(fos);
            }
            System.out.println("Excel 文件写入完成!");

        } catch (InterruptedException | IOException e) {
            e.printStackTrace();
        } finally {
            // 关闭线程池和资源
            executor.shutdown();
            try {
                workbook.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    // 模拟生成大数据 List
    private static List<String> generateLargeList(int size) {
        List<String> list = new ArrayList<>(size);
        for (int i = 0; i < size; i++) {
            list.add("Data-" + i);
        }
        return list;
    }
}

4. 代码说明

多线程处理:

使用 ExecutorService 创建固定大小的线程池(3个线程)。

每个线程负责一个 Sheet,并将数据分批写入。
分批写入:

writeDataToSheet 方法中,通过 subList 将数据分成小批次(例如每批 10,000 条)写入。

这样可以避免一次性加载过多数据到内存。
流式写入:

使用 SXSSFWorkbook 代替传统的 XSSFWorkbook,它支持流式写入并限制内存占用。
堆内存设置:

在运行程序时,通过 JVM 参数增加堆内存:

java 复制代码
java -Xmx2G -jar yourprogram.jar

这里 -Xmx2G 表示将最大堆内存设置为 2GB

5. 执行结果

Excel 文件生成速度更快,因为三个线程并发写入三个 Sheet。

内存占用更可控,通过分批写入和流式写入避免一次性加载过多数据。

Sheet 顺序:

多线程写入不会改变 Sheet 的顺序,因为 SXSSFWorkbook.createSheet 是线程安全的,并且会按照代码中调用顺序创建 Sheet。

相关推荐
SpongeG6 分钟前
数据结构_平衡二叉树
数据结构·算法
Eiceblue20 分钟前
Python拆分Excel - 将工作簿或工作表拆分为多个文件
开发语言·python·excel
Excel_easy21 分钟前
批量生成二维码,助力数字化管理-Excel易用宝
excel·wps
shentuyu木木木(森)42 分钟前
入门STL(map/multiset)
开发语言·数据结构·c++·算法·map·multiset
Psycho_MrZhang1 小时前
常见的数据结构和应用场景
数据结构·算法·哈希算法
SRKkAI2 小时前
取子串(指针)
数据结构·c++·算法
zyh_0305213 小时前
GO--堆(have TODO)
数据结构·算法·golang
十一29283 小时前
数据结构--链表和双向链表的详解及实现(哨兵位详解 数组和链表的区别)
数据结构·链表
苓诣5 小时前
寻找重复数
数据结构·算法·leetcode
Cooloooo5 小时前
完全二叉树【东北大学oj数据结构9-1】C++
数据结构