使用python打开parquet文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

python 复制代码
pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库
python 复制代码
import pyarrow.parquet as pq
2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

python 复制代码
parquet_file = pq.ParquetFile('data.parquet')
data = parquet_file.read().to_pandas()
2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

python 复制代码
import pyarrow.parquet as pq
import pandas as pd
parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
data = parquet_file.read().to_pandas()
df=pd.DataFrame(data)
excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
df.to_excel(excel_path,index=False)
print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库
python 复制代码
import fastparquet as fp
3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

python 复制代码
parquet_file = fp.ParquetFile('data.parquet')
data = parquet_file.to_pandas()
3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

相关推荐
码农水水几秒前
小红书Java面试被问:mTLS(双向TLS)的证书验证和握手过程
java·开发语言·数据库·redis·python·面试·开源
工程师老罗2 分钟前
Python中__call__和__init__的区别
开发语言·pytorch·python
dyyx1112 分钟前
Python GUI开发:Tkinter入门教程
jvm·数据库·python
ViiTor_AI3 分钟前
2026 年 AI 配音工具深度对比:视频旁白与有声书为什么越来越依赖语音克隆?
人工智能·音视频·语音识别
Rabbit_QL5 分钟前
【LLM原理学习】N-gram 语言模型实战教学指南(从原理到代码)
人工智能·学习·语言模型
2401_836121609 分钟前
更优雅的测试:Pytest框架入门
jvm·数据库·python
会算数的⑨10 分钟前
Spring AI Alibaba学习(一)—— RAG
java·人工智能·后端·学习·spring·saa
sensen_kiss10 分钟前
INT301 生物计算(神经网络)Coursework 解析(知识点梳理)
人工智能·笔记·深度学习·神经网络
诸神缄默不语12 分钟前
如何用Python调用智谱清言GLM系API实现智能问答
python·ai·大模型·nlp·chatglm·glm·智谱清言
Clarice__15 分钟前
VScode上的python使用教程
vscode·python·conda