编写高性能数据处理代码 01

⚠️ 注意,这是一篇软件技术文章,非软件开发者/爱好者 😜😜😜 慎入

各位python开发者/爱好者,我是 Pythonista,爱写优雅的python代码!

在AI飞速发展的今天数据科学占据了极高的地位,编写高效的 Python 代码成为一项重要的技能。

作为数据科学家,我们经常处理复杂的工作流程,在 Pandas 和 NumPy 等库之间切换以进行数据整理,使用 SQL 进行查询,以及使用 regex 进行数据清理和特征提取。

以上四种工具都是常用的,因此,了解更多关于它们的信息总是有用的。

在本文中介绍并行I/O分块读取和处理,这肯定能提升您在 Pandas方面的技能。

"Talk is cheap. Show the code",开干!

python 复制代码
# 以1000000行为每块大小,处理 10GB 的 CSV 文件,并即时进行聚合
agg = []
for chunk in pd.read_csv('big.csv', usecols=['user_id','purchase_amt'], chunksize=10**6):
    agg.append(chunk.groupby('user_id')['purchase_amt'].sum())
result = pd.concat(agg).groupby(level=0).sum()

工作原理:

  • usecols 在 I/O 层跳过解析不必要的列,从而减少内存开销。
  • chunksize 将数据分批流式传输,以避免 OOM 异常。

在 Pandas 中,read_csv() 的参数 usecols 和 chunksize 经常配合使用,用于按块(chunk)读取大型 CSV 文件,提高内存效率,并可以实现并行 I/O 或流式处理。这在处理大文件时非常重要,尤其是在无法一次性读入整个文件的情况下。

基本概念解释

✅ usecols

  • 含义:指定只读取某些列(column)。
  • 作用:减少内存占用,加快读取速度。

✅ chunksize

  • 含义:分块读取,每次读取指定行数,返回的是一个可迭代的 TextFileReader 对象。
  • 作用:避免一次性读取大文件造成内存爆炸。

✅ 并行 I/O 的含义(手动实现)

  • 虽然 Pandas 本身不自动并行处理 chunk,但你可以结合 Python 的多线程或多进程来并行处理每个 chunk,从而实现并行 I/O + 计算。

⚙️ 并行处理 Chunk(可选)

可以使用 concurrent.futures 来并行处理每个 chunk:

python 复制代码
from concurrent.futures import ThreadPoolExecutor
import pandas as pd

def process_chunk(chunk):
    chunk['value'] = chunk['value'] ** 2
    return chunk

reader = pd.read_csv('data.csv', usecols=['id', 'value'], chunksize=10000)

with ThreadPoolExecutor(max_workers=4) as executor:
    results = list(executor.map(process_chunk, reader))

# 合并结果
df_all = pd.concat(results)

总结:

参数 作用 场景
usecols 只读取指定列,节省内存 只关心部分字段,避免加载无用数据
chunksize 分块读取大文件,返回 chunk 流 文件太大,无法一次读入
并行处理 提高读取 + 处理的整体效率 多核环境下处理大数据
相关推荐
程序定小飞1 小时前
基于springboot的健身房管理系统开发与设计
java·spring boot·后端
wxin_VXbishe2 小时前
springboot在线课堂教学辅助系统-计算机毕业设计源码07741
java·c++·spring boot·python·spring·django·php
Moonbit2 小时前
你行你上!MoonBit LOGO 重构有奖征集令
前端·后端·设计
程序员三藏2 小时前
使用Docker和Selenium构建自动化测试环境
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
华仔啊2 小时前
开源一款 SpringBoot3 + Vue3 数据库文档工具,自动生成 Markdown/HTML
vue.js·spring boot·后端
Lethehong2 小时前
百万迁移费成历史?金仓数据库“零代码”替换Oracle,我们扒了扒它的技术底牌
后端·mysql·架构
吴祖贤2 小时前
5.1Spring AI Ollama 嵌入模型
后端
CaracalTiger2 小时前
本地部署 Stable Diffusion3.5!cpolar让远程访问很简单!
java·linux·运维·开发语言·python·微信·stable diffusion
合作小小程序员小小店3 小时前
web网页开发,在线%就业信息管理%系统,基于idea,html,layui,java,springboot,mysql。
java·前端·spring boot·后端·intellij-idea
Yefimov3 小时前
8. DPDK:多队列与流分类
后端·网络协议