Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
糖果店的幽灵2 天前
Pandas 数据读取与写入(IO 操作)详细总结
pandas
糖果店的幽灵2 天前
Pandas DataFrame 数据结构详解
数据结构·pandas
SilentSamsara2 天前
Pandas 工程化:多层索引、分组聚合与窗口函数的进阶用法
开发语言·python·青少年编程·pandas
牵牛花主人3 天前
【无标题】
python·pandas
糖果店的幽灵3 天前
时间序列处理
开发语言·python·pandas
一晌小贪欢4 天前
第19节:地理空间分析——使用 Geopandas 绘制热力地图
开发语言·python·数据分析·pandas·数据可视化
星越华夏4 天前
pandas字符串运算列在字母前后添加字符
pandas
wayz114 天前
pandas_ta 库指标分类
pandas·pandas_ta
ranchor6665 天前
groupby.filter() 与 df.query()
pandas
程序大视界5 天前
【Python系列课程】Pandas(六):数据读写——CSV与Excel文件操作
python·excel·pandas