Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
weixin_468635295 天前
Pandas 速查笔记
笔记·pandas
Dxy12393102166 天前
DataFrame缺失值处理:完整指南与实战技巧
python·pandas·dataframe
kong79069287 天前
Python核心语法-Pandas读写csv和tsv文件
pandas
Dxy12393102167 天前
DataFrame时间序列操作:从基础到高级的时间数据处理指南
pandas
-To be number.wan10 天前
用 Pandas 分析自行车租赁数据:从时间序列到天气影响的完整实训
python·数据分析·pandas·数据可视化
Dxy123931021610 天前
DataFrame索引功能详解
pandas
没事偷着乐琅13 天前
二、Pandas 是啥 是数据库吗?
数据库·pandas
Flying pigs~~13 天前
Pandas绘图和Seaborn绘图
数据挖掘·数据分析·pandas·seaborn·python可视化
Dxy123931021614 天前
DataFrame数据操作能力深度解析:从基础到高级的完整指南
pandas
好家伙VCC14 天前
# 发散创新:用Python+Pandas构建高效BI数据清洗流水线在现代数据分析领域,**BI(商业智能)工具的核心竞
java·python·数据分析·pandas