使用python打开parquet文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

python 复制代码
pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库
python 复制代码
import pyarrow.parquet as pq
2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

python 复制代码
parquet_file = pq.ParquetFile('data.parquet')
data = parquet_file.read().to_pandas()
2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

python 复制代码
import pyarrow.parquet as pq
import pandas as pd
parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
data = parquet_file.read().to_pandas()
df=pd.DataFrame(data)
excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
df.to_excel(excel_path,index=False)
print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库
python 复制代码
import fastparquet as fp
3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

python 复制代码
parquet_file = fp.ParquetFile('data.parquet')
data = parquet_file.to_pandas()
3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

相关推荐
Rubin智造社14 分钟前
04月24日AI每日参考:GPT-5.5正式发布,DeepSeek获腾讯阿里争相入局
人工智能·claude code·deepseek v4·gpt-5.5·deepseek融资
imbackneverdie22 分钟前
本科毕业论文自救指南
人工智能·ai·ai写作·毕业论文·ai工具·科研工具
生成论实验室22 分钟前
生成态势猜想:一种统一的宇宙动力学语法
人工智能·科技·神经网络·算法·信息与通信
ZStack开发者社区26 分钟前
DeepSeek-V4首发即支持,ZStack AIOS 私有化部署即刻可用
人工智能·开源·云计算
JEECG低代码平台31 分钟前
四强同台!DeepSeek-V4-Pro / GPT-5.5 / GLM-5.1 / MiniMax M2.7 横评:到底该选谁?
人工智能·gpt
慧一居士37 分钟前
Open WebUI 和 MaxKB 功能对比、使用场景对比、方案选型
人工智能
温迪的AI分享42 分钟前
2026 AI抠图实测:4款工具效果与速度对比
图像处理·人工智能·经验分享·ai
skywalk81631 小时前
发现Kotti项目的python包Beaker 存在安全漏洞
开发语言·网络·python·安全
今天你TLE了吗1 小时前
LLM到Agent&RAG——AI知识点概述 第六章:Function Call函数调用
java·人工智能·学习·语言模型·大模型
imbackneverdie1 小时前
科研绘图素材从哪找?
人工智能·科研·绘图工具·科研绘图·研究生·ai工具·科研工具