Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
高级测试工程师欧阳1 天前
python中selenium怎么使用
python·pandas
Chandler_Song1 天前
【Python代码】谷歌专利CSV处理函数
开发语言·python·pandas
lyx33136967595 天前
Pandas数据结构详解Series与DataFrame
数据结构·pandas
计算机毕设-小月哥5 天前
完整源码+技术文档!基于Hadoop+Spark的鲍鱼生理特征大数据分析系统免费分享
大数据·hadoop·spark·numpy·pandas·计算机毕业设计
姜—姜10 天前
数据分析总结
数据挖掘·数据分析·numpy·pandas·matplotlib·jieba·seaborn
万粉变现经纪人15 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘transformers’问题
人工智能·python·beautifulsoup·pandas·scikit-learn·pip·ipython
史锦彪18 天前
Pandas 入门:数据分析的得力工具
数据挖掘·数据分析·pandas
Wangsk13318 天前
用 Python 批量处理 Excel:从重复值清洗到数据可视化
python·信息可视化·excel·pandas
木木子999918 天前
Pandas query() 方法详解
pandas·query
修钩.23 天前
力扣 Pandas 挑战(5)---数据分组
算法·leetcode·pandas