Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
永康李1 天前
Pandas:从一个DataFrame中直接索引赋值到另一个索引位置出错的Bug及其解决方案
python·bug·pandas
Lx3522 天前
Pandas高级数据处理:数据安全与隐私保护
pandas
AuGuSt_812 天前
【对比】Pandas 和 Polars 的区别
pandas·polars
weixin_307779132 天前
PySpark检查两个DataFrame的数据是否一致
大数据·spark·pandas
鹿鸣悠悠3 天前
第二月:学习 NumPy、Pandas 和 Matplotlib 是数据分析和科学计算的基础
学习·numpy·pandas
PowerBI学谦4 天前
Python in Excel高级分析:一键RFM分析
大数据·人工智能·pandas
数据媛5 天前
机器学习_13 决策树知识总结
人工智能·python·决策树·机器学习·numpy·pandas·sklearn
数据媛5 天前
机器学习_18 K均值聚类知识点总结
python·机器学习·均值算法·numpy·pandas·scikit-learn·聚类
游王子9 天前
Python Pandas(9):Pandas 相关性分析
开发语言·python·pandas
游王子12 天前
Python Pandas(7):Pandas 数据清洗
开发语言·python·pandas