pyspark将hive数据写入Excel文件中

不多解释直接上代码,少python包的自己直接下载

python 复制代码
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
from pyspark.sql import SparkSession
import pandas as pd
import os

# 初始化 SparkSession 并启用 Hive 支持
spark = SparkSession.builder \
    .appName("select_hive_data_to_xlsx") \
    .master("yarn") \
    .config("spark.sql.warehouse.dir", "hdfs://1.1.1.1:4007/aaa/hive/warehouse") \
    .enableHiveSupport() \
    .config("spark.yarn.queue", "default") \
    .config("spark.executor.instances", "10") \
    .config("spark.executor.memory", "5g") \
    .config("spark.executor.cores", "4") \
    .config("spark.driver.memory", "6g") \
    .config("spark.driver.cores", "5") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://1.1.1.1:4007") \
    .config("spark.hadoop.fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem") \
    .config("spark.hadoop.fs.file.impl", "org.apache.hadoop.fs.LocalFileSystem") \
    .config("spark.hadoop.fs.hdfs.impl.disable.cache", "true") \
    .getOrCreate()

# 读取 Hive 表
df = spark.sql("\
select \
col_1,col_2 \
from tmp.tmp_1")

# 将 DataFrame 写入 CSV
df.write.csv("hdfs://1.1.1.1:4007/data/tmp/tmp_1.csv", header=True)

# 读取 HDFS 上的 CSV 数据
df = spark.read.option("encoding", "utf-8").csv("hdfs://1.1.1.1:4007/data/tmp/tmp_1.csv", header=True, inferSchema=True)

# 将 Spark DataFrame 转换为 Pandas DataFrame
pandas_df = df.toPandas()

# 将 Pandas DataFrame 写入本地的 Excel 文件
pandas_df.to_excel("/data/tmp/tmp_1.xlsx", index=False)

# 停止 SparkSession
spark.stop()

创作不易,觉得还不错,辛苦给个点赞👍🏻,感谢~~

相关推荐
sky丶Mamba10 分钟前
Jupyter Notebook 是否需要与环境绑定
ide·python·jupyter
阿巴阿阿巴巴巴巴12 分钟前
【深度学习相关安装及配环境】Anaconda搭建虚拟环境并安装CUDA、cuDVV和对应版本的Pytorch,并在jupyter notebook上部署
人工智能·pytorch·python·深度学习·jupyter·cuda
溯源00613 分钟前
deepseek问答记录:请讲解一下torch.full_like()
pytorch·python
hello kitty w15 分钟前
Python学习(2) ----- Python的数据类型及其集合操作
windows·python·学习
deephub16 分钟前
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
人工智能·python·jupyter·大语言模型·mcp
TomatoSCI17 分钟前
TomatoSCI分析日记:数据分析为什么用csv不用excel
数据挖掘·数据分析·excel
不会飞的鲨鱼1 小时前
【QQ音乐】sign签名| data参数加密 | AES-GCM加密 | webpack (下)
javascript·爬虫·python·webpack
放飞自我的Coder1 小时前
【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】
python·ocr·marker-pdf
zhonghuagongren1 小时前
高考加油!UI界面生成器!
python·学习·ui·高考
lkx097882 小时前
爬虫--以爬取小说为例
爬虫·python