Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
liuweidong080216 小时前
【Pandas】pandas Series flags
pandas
Lx3521 天前
Pandas数据重命名:列名与索引为标题
后端·python·pandas
壹屋安源4 天前
自动生成发票数据并存入Excel
python·excel·pandas·random·datetime·faker
Dream25125 天前
【数据分析之pandas】
数据挖掘·数据分析·pandas
Mobius80866 天前
探索 Seaborn Palette 的奥秘:为数据可视化增色添彩
图像处理·python·信息可视化·数据分析·pandas·matplotlib·数据可视化
赛丽曼7 天前
Pandas
人工智能·python·pandas
道友老李8 天前
【机器学习】数据分析之Pandas(一)
人工智能·python·机器学习·数据分析·pandas
无形忍者9 天前
Pandas系列|第一期:列值的前N码模糊匹配
linux·运维·pandas
code04号10 天前
df = pd.DataFrame(data)中的data可以是什么类型的数据?
python·pandas
runepic11 天前
[python]使用 Pandas 处理 Excel 数据:分割与展开列操作
python·excel·pandas