1.Zeppelin无法直接访问本地路径
如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
.format("csv") \
.option("delimiter", "\t") \
.option("header", "true") \
.mode("overwrite") \
.save("s3://mob-emr-test/dataplatform/zeppelin/")
2.Zeppelin可直接访问本地路径
需添加`file://` 前缀才能导出到本地
%pyspark
from pyspark.sql import SparkSession
# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
.format("csv") \
.option("delimiter", "\t") \
.option("header", "true") \
.mode("overwrite") \
.save("file:///c:/user/tmp/pyspark_output") # 注意 `file://` 前缀