Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
java1234_小锋6 小时前
一周学会Pandas2 Python数据处理与分析-Jupyter Notebook安装
开发语言·python·jupyter·pandas
zhuyixiangyyds6 小时前
day24学习Pandas库
笔记·学习·pandas
暴龙胡乱写博客20 小时前
python三大库之---pandas(二)
开发语言·人工智能·python·pandas
苏卫苏卫苏卫1 天前
【Python】数据结构练习
开发语言·数据结构·笔记·python·numpy·pandas
x66ccff2 天前
[特殊字符] Pandas 常用操作对比:Python 运算符 vs Pandas 函数
开发语言·python·pandas
爱学习的capoo3 天前
对应列表数据的分割和分组
python·pandas
java1234_小锋3 天前
一周学会Pandas2 Python数据处理与分析-编写Pandas2 HelloWord项目
python·pandas·python数据分析·pandas2
Python之栈5 天前
PandasAI:当数据分析遇上自然语言处理
人工智能·python·数据分析·pandas
zhuyixiangyyds5 天前
day21和day22学习Pandas库
笔记·学习·pandas
冷月半明6 天前
《Pandas 性能优化:向量化操作 vs. Swifter 加速,谁才是大数据处理的救星?》
python·数据分析·pandas