Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
大虫小呓17 分钟前
Python 处理 Excel 数据 pandas 和 openpyxl 哪家强?
python·pandas
好开心啊没烦恼21 小时前
Python 数据分析:numpy,抽提,整数数组索引与基本索引扩展(元组传参)。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy·pandas
旷世奇才李先生2 天前
Pandas 安装使用教程
pandas
卜及中13 天前
【Python】数据处理工具:Pandas详细指南
开发语言·python·学习·pandas
NLxxxxX13 天前
爬虫获取数据:selenium的应用
开发语言·爬虫·python·selenium·测试工具·numpy·pandas
猫头虎14 天前
2025最新Python 100个常用函数在线体验项目
android·java·python·pycharm·django·pandas·pip
闯闯桑14 天前
Pyspark中的int
大数据·python·spark·pandas
蓝婷儿14 天前
Python 数据分析与可视化 Day 3 - Pandas 数据筛选与排序操作
python·数据分析·pandas
蓝婷儿16 天前
Python 数据分析与可视化 Day 1 - Pandas 数据分析基础入门
python·数据分析·pandas