Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
AIAdvocate17 小时前
Pandas_数据结构详解
数据结构·python·pandas
白杆杆红伞伞1 天前
01_快速入门
python·pandas
diaobusi-883 天前
Python数据分析 Pandas基本操作
python·数据分析·pandas
D11_4 天前
pandas:读取各类文件方法以及爬虫时json数据保存
爬虫·python·数据分析·json·pandas
diaobusi-884 天前
python数据分析 pandas库-数据的读取和保存
python·数据分析·pandas
神奇夜光杯4 天前
Python酷库之旅-第三方库Pandas(117)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
TuringSnowy4 天前
Pandas_sqlite
python·pandas
小白学大数据4 天前
Pandas与Matplotlib:Python中的动态数据可视化
开发语言·爬虫·python·pandas·matplotlib
aloha_7895 天前
如何理解深度学习的训练过程
人工智能·python·深度学习·numpy·virtualenv·pandas·scikit-learn
wyk123_0465 天前
pandas 生成excel多级表头
python·excel·pandas