Pandas加载大数据集

Scaling to large datasets --- pandas 2.1.4 documentationhttps://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

python 复制代码
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用
相关推荐
智航GIS4 小时前
11.11 Pandas性能革命:向量化操作与内存优化实战指南
python·pandas
百锦再10 小时前
python之路并不一马平川:带你踩坑Pandas
开发语言·python·pandas·pip·requests·tools·mircro
jieshenai14 小时前
Pandas 基本操作记录
pandas
人工干智能2 天前
Pandas核心数据结构:Series与DataFrame
数据结构·python·pandas
智航GIS2 天前
11.7 使用Pandas 模块中describe()、groupby()进行简单分析
python·pandas
人工干智能3 天前
python的高级技巧:Pandas中的`iloc[]`和`loc[]`
开发语言·python·pandas
智航GIS4 天前
11.6 Pandas数据处理进阶:缺失值处理与数据类型转换完全指南
python·pandas
西红市杰出青年4 天前
crawl4ai------AsyncPlaywrightCrawlerStrategy使用教程
开发语言·python·架构·正则表达式·pandas
CCPC不拿奖不改名5 天前
数据处理与分析:pandas基础+面试习题
开发语言·数据结构·python·面试·职场和发展·pandas
4***17545 天前
Python酷库之旅-第三方库Pandas(051)
开发语言·python·pandas