Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
Pyeako1 天前
python中pandas库的使用(超详细)
开发语言·python·pandas
ranchor6662 天前
excel+pandas使用str.contains() 的典型例子
excel·pandas
啊巴矲2 天前
小白从零开始勇闯人工智能:机器学习初级篇(pandas库)
人工智能·机器学习·pandas
Keep__Fighting3 天前
【机器学习:集成算法】
人工智能·算法·机器学习·pandas·集成学习·sklearn
Hi_kenyon3 天前
Pandas Cheatsheet I
python·pandas
万粉变现经纪人3 天前
如何解决 pip install 网络报错 403 Forbidden(访问被阻止)问题
数据库·python·pycharm·beautifulsoup·bug·pandas·pip
咚咚王者3 天前
人工智能之数据分析 Pandas:第十一章 项目实践
人工智能·数据分析·pandas
咚咚王者3 天前
人工智能之数据分析 Pandas:第十章 知识总结
人工智能·数据分析·pandas
编程设计3664 天前
pandas 中 DataFrame、mean()、groupby 和 fillna 函数的核心作用
机器学习·数据挖掘·pandas
咚咚王者4 天前
人工智能之数据分析 Pandas:第九章 性能优化
人工智能·数据分析·pandas