spark dataFrame数据写出

SparkSQL统一API写出DataFrame数据

统一API语法:

df.write.mode().format().option(K,V).save(PATH)

  • mode,传入模式字符串可选:append追加,overwrite覆盖,ignore忽略,error重复就报异常(默认的)
  • format,传入格式字符串,可选:text,csv,json,parquet,orc,avro,jdbd
  • 注意text源只支持单列df写出,也就是数据写出来只有一列
  • option设置属性,如:.option("sep", ","),像保存csv时就可以指定它的分隔符
  • save写出的路径,支持本地文件和HDFS
python 复制代码
coding:utf8
import ...
if __name__ == '_main__':
    #O.构建执行环境入口对象SparkSession
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        config("spark.sql.shuffle.partitions", 2).\
        getorcCreate()
    sc = spark.sparkContext
    #1.读取数据集
    schema = StructType().add("user_id",StringType(),nullable=True).\
        add("movie_id",IntegerType(),nullable=True).
        add("rank",IntegerType(),nullable=True).
        add("ts",StringType),nullable=True)
    df = spark.read.format("csv").\
        option("sep","\t").\
        option("header",False).\
        option("encoding","utf-8").\
        schema(schema=schema).\
        Load("../data/input/sql/u.data")
    #Write text写出,只能写出一个列的数据,需要将df转换为单列df
    #这里用F对象里的concat_ws函数,指定---分隔,连接指定的字段
    df.select(F.concat_ws("---","user_id","movid_id","rank","ts")).\
        write.\
        mode("overwrite").\
        format("text").\
        save("../data/output/sql/text")
    # Write csv
    df.write.mode("overwrite").\
        format("csv").\
        option("sep", ";").
        option("header", True).\
        save("../data/output/sql/csv")
    # Write json
    df.write.mode("overwrite").\
        format("json").\
        save("../data/output/sql/json")
    # Write parquet
    df.write.mode("overwrite").\
        format("parqeut").\
        save("../data/output/sql/parquet")
相关推荐
ykjhr_3d36 分钟前
数字工具AI智能学伴,助力教育数字化转型
大数据·人工智能·ai·ai人工智能·华锐视点·华锐云空间
Gent_倪41 分钟前
Hadoop生态组件介绍
大数据·hadoop
动恰客流管家42 分钟前
动恰3DV3丨客流统计系统:旺季人手不够淡季闲人太多?客流统计帮你科学优化人力成本
大数据·运维·人工智能·3d
DolphinScheduler社区1 小时前
DolphinScheduler 3.3.2 如何调用 DataX 3.0 + SeaTunnel 2.3.12?附 Demo演示!
java·spark·apache·海豚调度·大数据工作流调度
瑞华丽PLM1 小时前
传统研发协同低效痛点待解,PLM 系统数字化选型助力研发效率提升与转型
大数据·plm·国产plm·瑞华丽plm·瑞华丽
乐迪信息1 小时前
乐迪信息:实时预警,秒级响应:船舶AI异常行为检测算法
大数据·人工智能·算法·安全·目标跟踪
红色星际1 小时前
进军具身机器人和Robotaxi的智驾公司
大数据·人工智能·机器人
Bruce_Liuxiaowei1 小时前
《轻量化制播系统技术应用指南(2026版)》解读:县级融媒体的“减负增效“新路径
大数据·人工智能·媒体
2601_956139421 小时前
文旅行业品牌全案公司哪家强
大数据·人工智能·python
生活观察站1 小时前
中文在线亮相横琴—澳门国际数字艺术博览会国际数字创意论坛:AI漫剧打开内容创作新想象
大数据·人工智能