使用python打开parquet文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

python 复制代码
pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库
python 复制代码
import pyarrow.parquet as pq
2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

python 复制代码
parquet_file = pq.ParquetFile('data.parquet')
data = parquet_file.read().to_pandas()
2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

python 复制代码
import pyarrow.parquet as pq
import pandas as pd
parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
data = parquet_file.read().to_pandas()
df=pd.DataFrame(data)
excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
df.to_excel(excel_path,index=False)
print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库
python 复制代码
import fastparquet as fp
3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

python 复制代码
parquet_file = fp.ParquetFile('data.parquet')
data = parquet_file.to_pandas()
3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

相关推荐
Yeats_Liao14 小时前
华为开源自研AI框架昇思MindSpore应用案例:跑通Vision Transformer图像分类
人工智能·华为·transformer
合作小小程序员小小店14 小时前
web网页开发,旧版在线%考试,判题%系统demo,基于python+flask+随机分配考试题目,基于开发语言python,数据库mysql
开发语言·后端·python·mysql·flask·html5
水凌风里15 小时前
格拉姆角场(Gramian Angular Field, GAF)详解
人工智能·机器学习
寻道码路15 小时前
【GitHub开源AI精选】OpenGlass:大模型赋能的开源方案,25美元打造智能眼镜,支持语音控制+AR叠加
人工智能·开源·github·aigc
reddingtons15 小时前
体验设计总监的“第五维度”:用Adobe Aero,无代码构建AR沉浸式体验
人工智能·adobe·ar·游戏程序·设计师·增强现实·adobe aero
大明者省15 小时前
大模型微调怎么实现?当然不是人工对一些参数微小调整!
大数据·人工智能
共绩算力15 小时前
Google发布Gemma 3 多模态多语言大模型
人工智能·共绩算力
rengang6615 小时前
353-Spring AI Alibaba ARK 多模型示例
java·人工智能·spring·多模态·spring ai·ai应用编程
丁学文武15 小时前
如何把ChatGPT嵌入到自己的应用中?
人工智能·chatgpt·编码·大模型应用·ai替代
dalalajjl15 小时前
爱派(AiPy):一个让大语言模型直接操作Python完成任务
python