Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
万粉变现经纪人2 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘tkinter’问题
python·beautifulsoup·pandas·pip·策略模式·httpx·scipy
超龄超能程序猿6 天前
(5)机器学习小白入门 YOLOv:数据需求与图像不足应对策略
人工智能·python·机器学习·numpy·pandas·scipy
李昊哲小课7 天前
pandas销售数据分析
人工智能·python·数据挖掘·数据分析·pandas
袁袁袁袁满7 天前
利用Pandas进行条件替换与向前填充
pandas·条件替换·向前填充
Deng9452013148 天前
基于Python的旅游数据可视化应用
python·numpy·pandas·旅游·数据可视化技术
liuweidong08028 天前
【Pandas】pandas DataFrame from_records
pandas
大数据魔法师9 天前
基于Pandas和FineBI的昆明职位数据分析与可视化实现(五) - 基于随机森林算法预测职位分类
算法·pandas
Chasing__Dreams10 天前
python--杂识--18.1--pandas数据插入sqlite并进行查询
python·sqlite·pandas
超龄超能程序猿11 天前
(3)机器学习小白入门 YOLOv: 解锁图片分类新技能
python·numpy·pandas·scipy
好开心啊没烦恼12 天前
Python 数据分析:计算,分组统计1,df.groupby()。听故事学知识点怎么这么容易?
开发语言·python·数据挖掘·数据分析·pandas