Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
themingyi8 小时前
Abaqus2024安装python包pandas
开发语言·python·pandas
一晌小贪欢9 小时前
第26节:自动化办公——利用 Python 自动生成动态分析报告 (PPT/PDF)
开发语言·python·数据分析·自动化·powerpoint·pandas·数据可视化
留白_12 小时前
pandas练习题
python·数据分析·pandas
留白_12 小时前
pandas进阶学习
学习·pandas
abcy0712131 天前
python pandas csv异步后台清洗前端优先返回成功信息
前端·python·pandas
留白_2 天前
pandas文件读取与存储
开发语言·python·pandas
SilentSamsara3 天前
特征工程系统方法论:编码、分箱、交互特征与特征选择
开发语言·人工智能·python·机器学习·青少年编程·信息可视化·pandas
一晌小贪欢3 天前
第22节:相关性分析——协方差、相关系数与热力图解读
开发语言·python·数据分析·pandas·数据可视化
糖果店的幽灵5 天前
Pandas 数据读取与写入(IO 操作)详细总结
pandas
糖果店的幽灵6 天前
Pandas DataFrame 数据结构详解
数据结构·pandas