Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
一晌小贪欢13 小时前
第19节:地理空间分析——使用 Geopandas 绘制热力地图
开发语言·python·数据分析·pandas·数据可视化
星越华夏14 小时前
pandas字符串运算列在字母前后添加字符
pandas
wayz1115 小时前
pandas_ta 库指标分类
pandas·pandas_ta
ranchor6662 天前
groupby.filter() 与 df.query()
pandas
程序大视界2 天前
【Python系列课程】Pandas(六):数据读写——CSV与Excel文件操作
python·excel·pandas
程序大视界3 天前
【Python系列课程】Pandas(四):数据统计与排序——describe、sort_values、sample
开发语言·python·pandas
知识分享小能手4 天前
数据预处理入门学习教程,从入门到精通,数据获取 — 知识点详解与案例代码(4)
python·学习·pandas
乔江seven5 天前
【python 数据分析】 Numpy、pandas、matplotlib
数据分析·numpy·pandas
石工记6 天前
CTO如何落地AI?从0到1的实战路径
人工智能·python·django·flask·numpy·pandas·pyqt
weixin_468466857 天前
Data-Engineering-Zoomcamp 新手实战指南
python·自动化·pandas·编程·数据处理