Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
qq_2837200519 小时前
Python 数据分析:Pandas+NumPy 超详细教程
python·数据分析·pandas
zzwq.1 天前
数据分析三件套:Numpy、Pandas、Matplotlib
数据分析·numpy·pandas
七颗糖很甜2 天前
雨滴谱数据深度解析——从原始变量到科学产品的Python实现【下篇】
python·算法·pandas
l1t2 天前
利用uv自带的cpython软件包在离线机器中安装pandas软件
pandas·uv
万粉变现经纪人2 天前
如何解决 pip install ta-lib 报错 本地 TA-Lib 库未安装 问题
数据库·python·scrapy·oracle·bug·pandas·pip
李昊哲小课2 天前
Pandas数据分析 - 第十一章:数据可视化
信息可视化·数据挖掘·数据分析·pandas·matplotlib
絆人心4 天前
Python 数据分析核心库:Pandas 与 NumPy 从入门到实战全指南(附电商用户分析完整代码)
python·数据挖掘·数据分析·numpy·pandas·数据处理·电商数据分析
李昊哲小课4 天前
Pandas数据分析 - 第十二章:性能优化
性能优化·数据挖掘·数据分析·pandas
李昊哲小课4 天前
Pandas数据分析 - 第二章:Series 对象详解
数据挖掘·数据分析·pandas
测试开发Kevin4 天前
Pandas 2.x核心技术—— Apache Arrow 高性能数据处理的基石
大数据·pandas