Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
Gyoku Mint2 天前
机器学习×第二卷:概念下篇——她不再只是模仿,而是开始决定怎么靠近你
人工智能·python·算法·机器学习·pandas·ai编程·matplotlib
坚持就完事了2 天前
大二下期末
python·numpy·pandas
仟濹3 天前
「数据分析 - Pandas 函数」【数据分析全栈攻略:爬虫+处理+可视化+报告】
爬虫·数据分析·pandas
KENYCHEN奉孝3 天前
Pandas和Django的示例Demo
python·django·pandas
liuweidong08024 天前
【Pandas】pandas DataFrame sample
python·数据挖掘·pandas
java1234_小锋4 天前
一周学会Pandas2之Python数据处理与分析-Pandas2数据绘图与可视化
开发语言·python·信息可视化·pandas
先做个垃圾出来………5 天前
Python中使用pandas
开发语言·python·pandas
小小爬虾5 天前
使用pandas实现合并具有共同列的两个EXCEL表
excel·pandas
liuweidong08025 天前
【Pandas】pandas DataFrame rename
python·数据挖掘·pandas