使用python打开parquet文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

python 复制代码
pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库
python 复制代码
import pyarrow.parquet as pq
2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

python 复制代码
parquet_file = pq.ParquetFile('data.parquet')
data = parquet_file.read().to_pandas()
2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

python 复制代码
import pyarrow.parquet as pq
import pandas as pd
parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
data = parquet_file.read().to_pandas()
df=pd.DataFrame(data)
excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
df.to_excel(excel_path,index=False)
print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库
python 复制代码
import fastparquet as fp
3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

python 复制代码
parquet_file = fp.ParquetFile('data.parquet')
data = parquet_file.to_pandas()
3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

相关推荐
weixin_457885825 分钟前
DeepSeek:穿透行业知识壁垒的搜索引擎攻防战
人工智能·搜索引擎·ai·deepseek·虎跃办公
索码理31 分钟前
初探MCP:对Excel操作不熟练?不怕,MCP来帮你
人工智能·后端·mcp
GXL32 分钟前
知识蒸馏概览:模型压缩与智能迁移的桥梁
人工智能
2401_8906658638 分钟前
免费送源码:Java+SpringBoot+MySQL SpringBoot网上宠物领养管理系统 计算机毕业设计原创定制
java·vue.js·spring boot·python·mysql·pycharm·html5
GCKJ_082442 分钟前
观成科技:利用DoH加密信道的C2流量分析
网络·科技·信息与通信·流量运营
DeepLink1 小时前
🧠 AI论文精读 :《Attention is All You Need》
人工智能·算法
黑不拉几的小白兔1 小时前
第十五届蓝桥杯大赛软件赛省赛Python 大学 B 组试做(下)【本期题单: 缴纳过路费, 纯职业小组】
数据库·python·蓝桥杯
仙人掌_lz1 小时前
使用Python从零实现一个端到端多模态 Transformer大模型
开发语言·人工智能·python·ai·transformer·多模态
Elastic 中国社区官方博客1 小时前
Elasticsearch:加快 HNSW 图的合并速度
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索