使用python打开parquet文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

python 复制代码
pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库
python 复制代码
import pyarrow.parquet as pq
2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

python 复制代码
parquet_file = pq.ParquetFile('data.parquet')
data = parquet_file.read().to_pandas()
2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

python 复制代码
import pyarrow.parquet as pq
import pandas as pd
parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
data = parquet_file.read().to_pandas()
df=pd.DataFrame(data)
excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
df.to_excel(excel_path,index=False)
print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库
python 复制代码
import fastparquet as fp
3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

python 复制代码
parquet_file = fp.ParquetFile('data.parquet')
data = parquet_file.to_pandas()
3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

相关推荐
人工智能小豪4 小时前
2025年大模型平台落地实践研究报告|附75页PDF文件下载
大数据·人工智能·transformer·anythingllm·ollama·大模型应用
Amo Xiang4 小时前
Python 解释器安装全攻略(适用于 Linux / Windows / macOS)
linux·windows·python·环境安装
程序员杰哥4 小时前
接口自动化测试之pytest 运行方式及前置后置封装
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·pytest
芯盾时代5 小时前
AI在网络安全领域的应用现状和实践
人工智能·安全·web安全·网络安全
黑鹿0225 小时前
机器学习基础(三) 逻辑回归
人工智能·机器学习·逻辑回归
浩皓素5 小时前
用Python开启游戏开发之旅
python
hello kitty w5 小时前
Python学习(6) ----- Python2和Python3的区别
开发语言·python·学习
电鱼智能的电小鱼6 小时前
虚拟现实教育终端技术方案——基于EFISH-SCB-RK3588的全场景国产化替代
linux·网络·人工智能·分类·数据挖掘·vr
天天代码码天天6 小时前
C# Onnx 动漫人物头部检测
人工智能·深度学习·神经网络·opencv·目标检测·机器学习·计算机视觉
Joseit6 小时前
从零打造AI面试系统全栈开发
人工智能·面试·职场和发展