Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
小张贼嚣张15 小时前
数据分析全流程实战:Python(Pandas/Matplotlib/Numpy)+ MySQL(附可下载数据源+多图形绘制)
python·数据分析·pandas
所谓伊人,在水一方3331 天前
【Python数据可视化精通】第9讲 | 实时数据流可视化
开发语言·python·信息可视化·数据分析·pandas
shenzhenNBA3 天前
python实现Excel数据根据规则拆分为多个Excel
pandas·excel拆分·python拆分excel
王夏奇3 天前
Python-对excel文件操作-pandas库
python·excel·pandas
wayz113 天前
Pandas 从入门到精通:完整数据分析指南
数据挖掘·数据分析·pandas
所谓伊人,在水一方3334 天前
【Python数据科学实战之路】第9章 | 探索性数据分析(EDA):让数据说话的艺术
开发语言·python·信息可视化·数据挖掘·数据分析·pandas·matplotlib
weixin_4686352918 天前
Pandas 速查笔记
笔记·pandas
Dxy123931021619 天前
DataFrame缺失值处理:完整指南与实战技巧
python·pandas·dataframe
kong790692820 天前
Python核心语法-Pandas读写csv和tsv文件
pandas
Dxy123931021621 天前
DataFrame时间序列操作:从基础到高级的时间数据处理指南
pandas