使用python打开parquet文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

python 复制代码
pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库
python 复制代码
import pyarrow.parquet as pq
2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

python 复制代码
parquet_file = pq.ParquetFile('data.parquet')
data = parquet_file.read().to_pandas()
2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

python 复制代码
import pyarrow.parquet as pq
import pandas as pd
parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
data = parquet_file.read().to_pandas()
df=pd.DataFrame(data)
excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
df.to_excel(excel_path,index=False)
print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库
python 复制代码
import fastparquet as fp
3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

python 复制代码
parquet_file = fp.ParquetFile('data.parquet')
data = parquet_file.to_pandas()
3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

相关推荐
说私域4 小时前
“互联网 +”时代商业生态变革:以开源 AI 智能名片链动 2+1 模式 S2B2C 商城小程序为例
人工智能·小程序·开源
stbomei4 小时前
AI大模型如何重塑日常?从智能办公到生活服务的5个核心改变
人工智能
酷飞飞4 小时前
错误是ModuleNotFoundError: No module named ‘pip‘解决“找不到 pip”
人工智能·python·pip
点云SLAM4 小时前
PyTorch 中.backward() 详解使用
人工智能·pytorch·python·深度学习·算法·机器学习·机器人
androidstarjack5 小时前
波士顿动力给机器人装上AI大脑,人类故意使绊子也不怕了!
人工智能·机器人
B1118521Y465 小时前
flask的使用
后端·python·flask
Learn Beyond Limits6 小时前
Transfer Learning|迁移学习
人工智能·python·深度学习·神经网络·机器学习·ai·吴恩达
程序员三明治6 小时前
三、神经网络
人工智能·深度学习·神经网络
hundaxxx7 小时前
自演化大语言模型的技术背景
人工智能
数智顾问7 小时前
【73页PPT】美的简单高效的管理逻辑(附下载方式)
大数据·人工智能·产品运营