Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

复制代码
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码
%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀
相关推荐
月夕·花晨21 分钟前
Gateway -网关
java·服务器·分布式·后端·spring cloud·微服务·gateway
失散1322 分钟前
分布式专题——6 Redis缓存设计与性能优化
java·redis·分布式·缓存·架构
BYSJMG29 分钟前
计算机毕设选题:基于Python+MySQL校园美食推荐系统【源码+文档+调试】
大数据·开发语言·python·mysql·django·课程设计·美食
索迪迈科技2 小时前
Flink Task线程处理模型:Mailbox
java·大数据·开发语言·数据结构·算法·flink
zzhongcy3 小时前
分布式存储:RustFS与MinIO全面对比
分布式
一叶飘零_sweeeet6 小时前
从手写 Redis 分布式锁到精通 Redisson:分布式系统的并发控制终极指南
redis·分布式·redisson
深空数字孪生7 小时前
储能调峰新实践:智慧能源平台如何保障风电消纳与电网稳定?
大数据·人工智能·物联网
百胜软件@百胜软件8 小时前
胜券POS:打造智能移动终端,让零售智慧运营触手可及
大数据
摩羯座-185690305949 小时前
Python数据可视化基础:使用Matplotlib绘制图表
大数据·python·信息可视化·matplotlib
在未来等你9 小时前
Kafka面试精讲 Day 13:故障检测与自动恢复
大数据·分布式·面试·kafka·消息队列