将三个list往一个excel表的三个sheet中写入,能用多线程提高写入速度

1. 多线程大批量写入可能导致 OOM

多线程可以加速写入操作,因为每个线程可以独立处理一个 Sheet。

但多线程会导致内存占用增加,因为多个线程可能同时将数据加载到内存中。

如果每个 List 数据量过大,而 JVM 的堆内存不够,就会触发 OOM。

2. 解决 OOM 问题的策略

为了保证程序稳定性并避免 OOM,采取以下措施:

1,使用分批处理数据 :将大的 List 分批写入,避免一次性加载所有数据到内存中。
2,使用 SXSSFWorkbook 流式写入 :它是 Apache POI 提供的专门用于大数据量 Excel 操作的类。
3,合理设置 JVM 堆内存 :通过 JVM 参数如 -Xmx2G 提高堆内存限制。
4,多线程写入:每个线程负责一个 Sheet,实现并发写入加速。

3. 代码示例

假设有三个大 List,我们分别写入 Excel 的三个 Sheet:

依赖引入

使用 Apache POI,需要添加以下依赖(Maven):

java 复制代码
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.3</version>
</dependency>
代码实现
java 复制代码
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;

import java.io.FileOutputStream;
import java.io.IOException;
import java.util.*;
import java.util.concurrent.*;

public class MultiThreadExcelWriter {

    // 方法:分批写入数据到 Sheet
    private static void writeDataToSheet(Sheet sheet, List<String> data, int batchSize) {
        int rowIndex = 0;
        for (int i = 0; i < data.size(); i += batchSize) {
            List<String> batch = data.subList(i, Math.min(i + batchSize, data.size()));
            for (String item : batch) {
                Row row = sheet.createRow(rowIndex++);
                Cell cell = row.createCell(0);
                cell.setCellValue(item);
            }
        }
    }

    public static void main(String[] args) {
        // 假设有三个大 List
        final List<String> list1 = generateLargeList(1000000); // 模拟100万条数据
        final List<String> list2 = generateLargeList(1000000);
        final List<String> list3 = generateLargeList(1000000);

        // 创建线程池,控制并发线程数
        ExecutorService executor = Executors.newFixedThreadPool(3);

        // 使用 SXSSFWorkbook 实现流式写入
        Workbook workbook = new SXSSFWorkbook();

        // 定义任务
        List<Callable<Void>> tasks = new ArrayList<>();

        tasks.add(() -> {
            Sheet sheet1 = workbook.createSheet("Sheet1");
            writeDataToSheet(sheet1, list1, 10000); // 分批写入,每批1万条
            return null;
        });

        tasks.add(() -> {
            Sheet sheet2 = workbook.createSheet("Sheet2");
            writeDataToSheet(sheet2, list2, 10000);
            return null;
        });

        tasks.add(() -> {
            Sheet sheet3 = workbook.createSheet("Sheet3");
            writeDataToSheet(sheet3, list3, 10000);
            return null;
        });

        try {
            // 执行任务
            executor.invokeAll(tasks);

            // 将数据写入 Excel 文件
            try (FileOutputStream fos = new FileOutputStream("output.xlsx")) {
                workbook.write(fos);
            }
            System.out.println("Excel 文件写入完成!");

        } catch (InterruptedException | IOException e) {
            e.printStackTrace();
        } finally {
            // 关闭线程池和资源
            executor.shutdown();
            try {
                workbook.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    // 模拟生成大数据 List
    private static List<String> generateLargeList(int size) {
        List<String> list = new ArrayList<>(size);
        for (int i = 0; i < size; i++) {
            list.add("Data-" + i);
        }
        return list;
    }
}

4. 代码说明

多线程处理:

使用 ExecutorService 创建固定大小的线程池(3个线程)。

每个线程负责一个 Sheet,并将数据分批写入。
分批写入:

writeDataToSheet 方法中,通过 subList 将数据分成小批次(例如每批 10,000 条)写入。

这样可以避免一次性加载过多数据到内存。
流式写入:

使用 SXSSFWorkbook 代替传统的 XSSFWorkbook,它支持流式写入并限制内存占用。
堆内存设置:

在运行程序时,通过 JVM 参数增加堆内存:

java 复制代码
java -Xmx2G -jar yourprogram.jar

这里 -Xmx2G 表示将最大堆内存设置为 2GB

5. 执行结果

Excel 文件生成速度更快,因为三个线程并发写入三个 Sheet。

内存占用更可控,通过分批写入和流式写入避免一次性加载过多数据。

Sheet 顺序:

多线程写入不会改变 Sheet 的顺序,因为 SXSSFWorkbook.createSheet 是线程安全的,并且会按照代码中调用顺序创建 Sheet。

相关推荐
Morwit2 分钟前
*【力扣hot100】 448. 找到所有数组中消失的数字
数据结构·算法·leetcode
qeen872 小时前
【数据结构】顺序表的详细解析及其简单通讯录实现
c语言·数据结构·学习
天赐学c语言2 小时前
1.16 - 二叉树的中序遍历 && 动态多态的实现原理
数据结构·c++·算法·leecode
sin_hielo2 小时前
leetcode 2975
数据结构·算法·leetcode
睡一觉就好了。2 小时前
堆的完全二叉树实现
数据结构
多米Domi0112 小时前
0x3f 第33天 redis+链表
数据结构·链表
不坑老师2 小时前
小工具显出大才能——不坑盒子为教育数字化转型贡献“新方案”
microsoft·word·excel·ppt·office
骆驼爱记录3 小时前
Python程序打包全攻略
自动化·word·excel·wps·新人首发
好奇龙猫3 小时前
【大学院-筆記試験練習:线性代数和数据结构(10)】
数据结构·线性代数
不穿格子的程序员4 小时前
从零开始写算法——二叉树篇7:从前序与中序遍历序列构造二叉树 + 二叉树的最近公共祖先
数据结构·算法