Zeppelin在spark环境导出dataframe

talle20212025-04-26 10:38

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径，可先将dataframe写到s3，在通过读取s3路径下载文件

复制代码

%pyspark
# 示例：用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码

%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地（使用 coalesce(1) 合并成一个文件）
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀

上一篇：KafkaSpark-Streaming

下一篇：第七章响应式的 watch 实现【手摸手带你实现一个vue3】