Pandas加载大数据集

武小胖儿2024-01-18 13:23

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法：只加载需要的列、转化数据类型、使用chunking（转化文件存储格式）、使用Dask（使用多进程/线程加载数据）。

python 复制代码

pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category，以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用

上一篇：【java基础】String、StringBuffer和StringBuild 那些事

下一篇：iOS block以及变量捕获