Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

复制代码
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码
%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀
相关推荐
尽兴-1 小时前
Git 清理指南:如何从版本库中移除误提交的文件(保留本地文件)
大数据·git·gitee·gitlab
春马与夏2 小时前
Flink读取Kafka写入Paimon
大数据·flink·kafka
张较瘦_3 小时前
[论文阅读] 系统架构 | 零售 IT 中的微服务与实时处理:开源工具链与部署策略综述
大数据·论文阅读·零售
大千AI助手4 小时前
硬核实战 | 3分钟Docker部署ClickHouse列存数据库
大数据·clickhouse·docker·database
亲爱的非洲野猪9 小时前
基于ElasticSearch的法律法规检索系统架构实践
大数据·elasticsearch·系统架构
CHEN5_0210 小时前
Redis分布式缓存(RDB、AOF、主从同步)
redis·分布式·缓存
xx155802862xx11 小时前
matlab分布式电源微电网潮流
分布式
bxlj_jcj11 小时前
解锁Flink CDC:实时数据同步秘籍
大数据·flink
明达技术11 小时前
分布式I/O在食品包装行业中的应用
分布式