Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

复制代码
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码
%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀
相关推荐
跨境数据猎手4 小时前
1688 商品铺货到独立站实操(附工具 + 代码)
大数据·爬虫·软件构建
song150265372984 小时前
【无标题】
大数据
2501_927283584 小时前
荣联汇智立体仓库:为智慧工厂搭建高效“骨骼”与“中枢”
大数据·运维·人工智能·重构·自动化·制造
NOCSAH4 小时前
统好AI数智平台SRM模块:智能采购管理实操
大数据·人工智能
Ai173163915794 小时前
10大算力芯片某某XXU全解析:CPU/GPU/TPU/NPU/LPU/FPGA/RPU/BPU/DPU/GPGPU
大数据·图像处理·人工智能·深度学习·计算机视觉·自动驾驶·知识图谱
Bechamz4 小时前
大数据开发学习Day23
大数据·学习·ajax
努力努力再努力FFF5 小时前
律师想了解AI法律咨询工具,能否用它提升案件检索效率?
大数据·人工智能
二十六画生的博客5 小时前
Flink快照保留多久、多少个,设置参数
大数据·flink
看海的四叔5 小时前
【SQL】SQL-管好你的字符串
大数据·数据库·hive·sql·数据分析·字符串
marsh02065 小时前
41 openclaw分布式会话管理:跨服务状态同步方案
分布式·ai·编程·技术