Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

复制代码
%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

复制代码
%pyspark
from pyspark.sql import SparkSession

# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \
    .format("csv") \
    .option("delimiter", "\t") \
    .option("header", "true") \
    .mode("overwrite") \
    .save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀
相关推荐
莫叫石榴姐5 分钟前
ast 在 Dify 工作流中解析 JSON 格式数据的深度解析
大数据·网络·安全·json
泰克教育官方账号18 分钟前
泰涨知识 | Hadoop的IO操作——压缩/解压缩
大数据·hadoop·分布式
浮不上来33 分钟前
人工兔优化算法(ARO)详解:原理、实现与应用
大数据·人工智能·机器学习·优化算法
Elastic 中国社区官方博客38 分钟前
Elastic 在 AWS re:Invent:总结一年在 agentic AI 创新中的合作
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索·aws
ToB营销学堂1 小时前
自动化营销是什么?B2B企业高效增长的核心引擎
大数据·运维·自动化·b2b营销获客·b2b系统管理
AI营销资讯站1 小时前
AI营销内容生产领域原圈科技多智能体系统优势分析
大数据·人工智能
TG:@yunlaoda360 云老大1 小时前
华为云国际站代理商的CCE主要有什么作用呢?
大数据·华为云·云计算·产品运营
TG:@yunlaoda360 云老大1 小时前
华为云国际站代理商DSS主要有什么作用呢?
大数据·华为云·云计算·产品运营
写代码的【黑咖啡】1 小时前
在大数据环境中如何设计数据集市
大数据