Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
书到用时方恨少!12 小时前
Python Pandas 使用指南:数据分析的瑞士军刀
python·数据分析·pandas
绛橘色的日落(。・∀・)ノ1 天前
Pandas 第九章 分类数据
pandas
MediaTea1 天前
Pandas :索引机制与数据访问
pandas
TRACER~852 天前
项目实战:pandas+pytest+allure+adb
adb·pandas·pytest
橘子编程2 天前
Django全栈开发终极指南
后端·python·django·npm·html·pandas·html5
MediaTea2 天前
Pandas:文件读写与数据接口
pandas
凌波粒3 天前
D2L学习笔记:安装、张量与数据处理
笔记·python·学习·pandas
沪漂阿龙5 天前
深入浅出 Pandas apply():从入门到向量化思维
人工智能·python·pandas
沪漂阿龙5 天前
深度解析Pandas数据组合:从concat到merge,打通你的数据处理任督二脉
python·数据分析·pandas
哈伦20195 天前
Python 生成随机数
python·机器学习·pandas