spark dataFrame数据写出

SparkSQL统一API写出DataFrame数据

统一API语法:

df.write.mode().format().option(K,V).save(PATH)

  • mode,传入模式字符串可选:append追加,overwrite覆盖,ignore忽略,error重复就报异常(默认的)
  • format,传入格式字符串,可选:text,csv,json,parquet,orc,avro,jdbd
  • 注意text源只支持单列df写出,也就是数据写出来只有一列
  • option设置属性,如:.option("sep", ","),像保存csv时就可以指定它的分隔符
  • save写出的路径,支持本地文件和HDFS
python 复制代码
coding:utf8
import ...
if __name__ == '_main__':
    #O.构建执行环境入口对象SparkSession
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        config("spark.sql.shuffle.partitions", 2).\
        getorcCreate()
    sc = spark.sparkContext
    #1.读取数据集
    schema = StructType().add("user_id",StringType(),nullable=True).\
        add("movie_id",IntegerType(),nullable=True).
        add("rank",IntegerType(),nullable=True).
        add("ts",StringType),nullable=True)
    df = spark.read.format("csv").\
        option("sep","\t").\
        option("header",False).\
        option("encoding","utf-8").\
        schema(schema=schema).\
        Load("../data/input/sql/u.data")
    #Write text写出,只能写出一个列的数据,需要将df转换为单列df
    #这里用F对象里的concat_ws函数,指定---分隔,连接指定的字段
    df.select(F.concat_ws("---","user_id","movid_id","rank","ts")).\
        write.\
        mode("overwrite").\
        format("text").\
        save("../data/output/sql/text")
    # Write csv
    df.write.mode("overwrite").\
        format("csv").\
        option("sep", ";").
        option("header", True).\
        save("../data/output/sql/csv")
    # Write json
    df.write.mode("overwrite").\
        format("json").\
        save("../data/output/sql/json")
    # Write parquet
    df.write.mode("overwrite").\
        format("parqeut").\
        save("../data/output/sql/parquet")
相关推荐
独自归家的兔22 分钟前
从 “局部凑活“ 到 “全局最优“:AI 规划能力的技术突破与产业落地实践
大数据·人工智能
海域云-罗鹏33 分钟前
国内公司与英国总部数据中心/ERP系统互连,SD-WAN专线实操指南
大数据·数据库·人工智能
策知道2 小时前
依托政府工作报告准备省考【经验贴】
大数据·数据库·人工智能·搜索引擎·政务
Henry-SAP2 小时前
SAP(ERP) 组织结构业务视角解析
大数据·人工智能·sap·erp·sap pp
冷崖3 小时前
消息队列-kafka(一)
分布式·kafka
TracyCoder1233 小时前
ElasticSearch内存管理与操作系统(一):内存分配底层原理
大数据·elasticsearch·搜索引擎
cd_949217215 小时前
九昆仑低碳科技:所罗门群岛全国森林碳汇项目开发合作白皮书
大数据·人工智能·科技
Acrelhuang5 小时前
工商业用电成本高?安科瑞液冷储能一体机一站式解供能难题-安科瑞黄安南
大数据·开发语言·人工智能·物联网·安全
小王毕业啦5 小时前
2010-2024年 非常规高技能劳动力(+文献)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
言無咎5 小时前
从规则引擎到任务规划:AI Agent 重构跨境财税复杂账务处理体系
大数据·人工智能·python·重构