Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
Flying pigs~~2 天前
数据分析三剑客之Pandas
大数据·数据库·人工智能·数据分析·numpy·pandas
奔跑的蜗牛FelixChioa2 天前
python学习之快速掌握 pandas 数据可视化:「matplotlib+seaborn」极简实战方案
python·pandas·数据可视化
奔跑的蜗牛FelixChioa4 天前
python学习之通过pandas处理excel和csv数据
python·pandas
AI_56784 天前
Pandas高效清洗:5个函数让脏数据处理快80%
人工智能·pandas
闲人编程4 天前
Python在数据工程中的角色:Airflow和Pandas实践
开发语言·python·pandas·airflow·数据工程·codecapsule
Fleshy数模4 天前
数据“整容”术:Pandas+Matplotlib让你的数据会说话
pandas·matplotlib
小玲男友4 天前
三大库-pandas
python·pandas
星辰徐哥4 天前
人工智能从入门到精通:NumPy 与 Pandas 数据分析基础
人工智能·ai·数据分析·numpy·pandas
玄同7654 天前
NumPy 与 Pandas 中「有无返回值函数」的易错点整理
人工智能·python·机器学习·数据挖掘·数据分析·numpy·pandas
普通网友4 天前
掌握 requests、BeautifulSoup 等库的网络爬虫基础,或使用 pandas 进行简单数据分析
爬虫·beautifulsoup·pandas