Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
傻啦嘿哟16 小时前
Pandas处理大规模数据:分块读取与内存优化实战指南
pandas
咚咚王者19 小时前
人工智能之数据分析 Pandas:第五章 文件处理
人工智能·数据分析·pandas
咚咚王者1 天前
人工智能之数据分析 Pandas:第四章 常用函数
人工智能·数据分析·pandas
liuweidong08022 天前
【Pandas】pandas Rolling window sem
pandas
万粉变现经纪人2 天前
如何解决 pip install 代理报错 407 Proxy Authentication Required 问题
windows·python·pycharm·beautifulsoup·bug·pandas·pip
星云数灵2 天前
机器学习入门实战:使用Scikit-learn完成鸢尾花分类
人工智能·python·机器学习·ai·数据分析·pandas·python数据分析
咚咚王者2 天前
人工智能之数据分析 Pandas:第三章 DataFrame
人工智能·数据分析·pandas
星云数灵3 天前
使用Anaconda管理Python环境:安装与验证Pandas、NumPy、Matplotlib
开发语言·python·数据分析·pandas·教程·环境配置·anaconda
牢七3 天前
数据结构11
pandas
咚咚王者3 天前
人工智能之数据分析 Pandas:第二章 Series
人工智能·数据分析·pandas