Python分块读取大型Excel文件

文章目录


传统方法在处理大型Excel文件时可能面临内存不足的问题。以下方法通过分块读取适合处理数百MB甚至GB级别的Excel文件。

一、核心特性

内存高效:采用分块处理机制,避免一次性加载整个文件到内存

灵活配置:可自定义分块大小、工作表选择和表头设置

生成器模式:以迭代方式返回数据,适合流式处理

自动清理:正确处理文件资源,避免内存泄漏

二、使用示例

python 复制代码
import pandas as pd
from openpyxl import load_workbook
from typing import Generator, Optional


def read_excel_in_chunks(
        file_path: str,
        chunk_size: int = 1000,
        sheet_name: Optional[str] = None,
        header: Optional[int] = 0,
) -> Generator[pd.DataFrame, None, None]:
    """
    分块读取大型 Excel 文件,避免内存不足。

    Args:
        file_path (str): Excel 文件路径。
        chunk_size (int): 每块的行数(默认 1000)。
        sheet_name (str): 工作表名(默认第一个工作表)。
        header (int): 表头所在行(默认第 0 行,无表头设为 None)。

    Yields:
        pd.DataFrame: 每个分块的 DataFrame。
    """
    # 以只读模式打开 Excel 文件
    wb = load_workbook(file_path, read_only=True)

    # 选择工作表
    if sheet_name is not None:
        sheet = wb[sheet_name]
    else:
        sheet = wb.active  # 默认第一个工作表

    # 读取表头(如果有)
    headers = []
    if header is not None:
        for row in sheet.iter_rows(min_row=header + 1, max_row=header + 1, values_only=True):
            headers = list(row)

    # 分块读取数据
    chunk_data = []
    start_row = (header + 1) if header is not None else 1  # 数据起始行

    for i, row in enumerate(sheet.iter_rows(min_row=start_row, values_only=True), start=1):
        chunk_data.append(row)

        # 每积累 chunk_size 行,生成一个 DataFrame
        if i % chunk_size == 0:
            yield pd.DataFrame(chunk_data, columns=headers)
            chunk_data = []

    # 处理剩余行(不足 chunk_size 的部分)
    if chunk_data:
        yield pd.DataFrame(chunk_data, columns=headers)

    # 关闭工作簿
    wb.close()


for dfdf_chunk in read_excel_in_chunks(f'big.xlsx', chunk_size=1000):
	# 可以转换为字典列表
    data=df_chunk.to_dict(orient='records')
    ...

三、性能建议

分块大小:根据可用内存调整,通常1000-10000行/块较为合适

无表头文件:设置header=None可跳过表头解析

工作表选择:明确指定sheet_name比使用默认工作表更高效

四、适用场景

大数据量 Excel 文件处理

内存受限环境下的数据分析

数据分批导入数据库

流式数据预处理

五、相关文章

Pandas读写Excel文件

相关推荐
计算机毕业设计木哥21 分钟前
计算机Python毕业设计推荐:基于Django的酒店评论文本情感分析系统【源码+文档+调试】
开发语言·hadoop·spring boot·python·spark·django·课程设计
BYSJMG22 分钟前
基于Python毕业设计推荐:基于Django的全国降水分析可视化系统
hadoop·python·django·vue·毕业设计·课程设计·毕设
飞天小蜈蚣1 小时前
python - ( js )object对象、json对象、字符串对象的相关方法、数组对象的相关方法、BOM对象、BOM模型中 Navigator 对象
javascript·python·json
云手机掌柜3 小时前
Twitter舆情裂变链:指纹云手机跨账号协同机制提升互动率200%
python·网络安全·智能手机·矩阵·虚幻·内容运营·twitter
@PHARAOH3 小时前
HOW - 在浏览器下载一个 Excel 表格文件
前端·excel
2401_897930063 小时前
python 创建websocket教程
开发语言·python·websocket
AI Echoes4 小时前
LangGraph 重要注意事项和常见问题
人工智能·python·langchain·agent
丨 丨5 小时前
Python 爬虫基础教学
开发语言·爬虫·python
dbdr09015 小时前
Linux 入门到精通,真的不用背命令!零基础小白靠「场景化学习法」,3 个月拿下运维 offer,第二十四天
linux·运维·c语言·python·学习
烟雨迷5 小时前
web自动化测试(selenium)
运维·开发语言·前端·python·selenium·测试工具