Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

复制代码
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码
%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀
相关推荐
OYpBNTQXi17 分钟前
Flink Agents 源码解读 --- (6) --- ActionTask
大数据·flink
中金快讯1 小时前
济民健康医疗服务占比提升至46%!业务结构调整初见成效
大数据·人工智能
lizhihai_991 小时前
股市学习心得-尾盘半小时买入法
大数据
大大大大晴天️1 小时前
Hudi 生产问题排障-乱序Upsert入湖数据丢失
大数据·flink·hudi
程序大视界2 小时前
2026AI智能体元年,中国正式超越美国
大数据·人工智能
qq_235132172 小时前
五金制造行业ERP系统多少钱?易呈erp五金行业版功能模块详解与成功案例分享
大数据·运维·人工智能·制造·智能制造
数字化顾问2 小时前
(87页PPT)DG1165大数据平台建设方案技术交流(附下载方式)
大数据
小江的记录本3 小时前
【RabbitMQ】RabbitMQ核心知识体系全解(5大核心模块:Exchange类型、消息确认机制、死信队列、延迟队列、镜像队列)
java·前端·分布式·后端·spring·rabbitmq·mvc
jiang_changsheng3 小时前
亚马逊的(A9、COSMO)和视频推流(如ABR)点击推广算法
大数据·数据挖掘
切糕师学AI3 小时前
Elasticsearch 向量索引深度解析:从原理到生产实践
大数据·elasticsearch·搜索引擎·语义搜索·相似性搜索·语义理解