Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
2401_8274999913 小时前
数据分析学习05(黑马)-Pandas
学习·数据分析·pandas
2501_921960852 天前
协同本体论:元公理体系、普适演化律则与工程范式统一构建
python·重构·numpy·pandas·scipy
唐骁虎3 天前
使用SQLAlchemy查询Pandas DataFrame
数据库·oracle·pandas
万粉变现经纪人3 天前
如何解决 pip install jaxlib[cuda] 报错 CUDA 版本与轮子标签不匹配 问题
人工智能·python·深度学习·tensorflow·pandas·scikit-learn·pip
Yu_Lijing4 天前
Python数据分析和数据处理库Pandas(数据组合函数)
人工智能·数据挖掘·数据分析·pandas
Yu_Lijing5 天前
Python数据分析和数据处理库Pandas(DataFrame数据分析入门)
人工智能·python·数据分析·pandas
星越华夏6 天前
Pandas实现excel的IF函数功能
excel·pandas
啦啦啦_99997 天前
Pandas之Series对象
pandas
xiaotao1318 天前
01-编程基础与数学基石:概率与统计
人工智能·python·numpy·pandas
人工干智能11 天前
科普:python的pandas包中的DataFrame就是二维表
开发语言·python·pandas