Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

复制代码
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码
%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀
相关推荐
MQ_SOFTWARE15 分钟前
文件权限标记机制在知识安全共享中的应用实践
大数据·网络
白鹭1 小时前
基于LNMP架构的分布式个人博客搭建
linux·运维·服务器·网络·分布式·apache
不辉放弃1 小时前
kafka的消费者负载均衡机制
数据库·分布式·kafka·负载均衡
花下的晚风2 小时前
模拟flink处理无限数据流
大数据·flink
小悟空2 小时前
[AI 生成] Flink 面试题
大数据·面试·flink
livemetee2 小时前
Flink2.0学习笔记:Stream API 常用转换算子
大数据·学习·flink
AutoMQ3 小时前
技术干货|为什么越来越多企业放弃 Flink/Spark,用 AutoMQ 替代传统 ETL?
大数据
java叶新东老师3 小时前
三、搭建springCloudAlibaba2021.1版本分布式微服务-springcloud loadbalancer负载均衡
分布式·spring cloud·微服务
zxsz_com_cn5 小时前
智能化设备健康管理:中讯烛龙预测性维护系统引领行业变革
大数据·架构
沉下去,苦磨练!5 小时前
kafka的部署和jmeter连接kafka
分布式·jmeter·kafka