Spark通过三种方式创建DataFrame

通过toDF方法创建DataFrame

通过toDF的方法创建

  • 集合rdd中元素类型是样例类的时候,转成DataFrame之后列名默认是属性名
  • 集合rdd中元素类型是元组的时候,转成DataFrame之后列名默认就是_N
  • 集合rdd中元素类型是元组/样例类的时候,转成DataFrame(toDF("ID","NAME","SEX","AGE6"))可以自定义列名
csharp 复制代码
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.junit.Test


case class Person(id:Int,name:String,sex:String,age:Int)
class TestScala {

  val spark = SparkSession
    .builder()
    .appName("test")
    .master("local[4]")
    .getOrCreate()
    import spark.implicits._

  /**
   * 通过toDF的方法创建
   *    集合rdd中元素类型是样例类的时候,转成DataFrame之后列名默认是属性名
   *    集合rdd中元素类型是元组的时候,转成DataFrame之后列名默认就是_N
   */
  @Test
  def createDataFrameByToDF():Unit={
    //TODO 样例类是属性名
    val list = List(Person(1,"zhangsan","man",10),Person(2,"zhang2","woman",66),Person(3,"zhang3","man",70),Person(4,"zhang4","man",22))
    //需要隐士转换
    val df:DataFrame = list.toDF()
    df.show()
    //TODO 元祖是_N
    val list2 = List((1,"zhangsan","man",10),(1,"zhang2","woman",66),(1,"zhang3","man",70),(1,"zhang4","man",22))
    //需要隐士转换
    val df1:DataFrame = list2.toDF()
    df1.show()
    //TODO 自定义属性名
    val list3 = List((1,"zhangsan","man",10),(1,"zhang2","woman",66),(1,"zhang3","man",70),(1,"zhang4","man",22))
    //需要隐士转换
    val df2:DataFrame = list3.toDF("ID","NAME","SEX","AGE6")
    df2.show()
  }
  
  
}

结果

通过读取文件创建DataFrame

json数据

csharp 复制代码
{"age":20,"name":"qiaofeng"}
{"age":19,"name":"xuzhu"}
{"age":18,"name":"duanyu"}
csharp 复制代码
  /**
   * 通过读取文件创建
   */
  @Test
  def createDataFrame():Unit={
    val df = spark.read.json("src/main/resources/user.json")
    df.show()
  }

通过createDataFrame方法创建DF

csharp 复制代码
  @Test
  def createDataFrameByMethod():Unit={
    val fields = Array(StructField("id",IntegerType),StructField("name",StringType),StructField("sex",StringType),StructField("age",IntegerType))
    val schema = StructType(fields)
    val rdd = spark.sparkContext.parallelize(List(Row(1, "zhangsan", "man", 10), Row(2, "zhang2", "woman", 66), Row(3, "zhang3", "man", 70), Row(4, "zhang4", "man", 22)))
    val df = spark.createDataFrame(rdd, schema)
    df.show()
  }
相关推荐
KaMeidebaby5 分钟前
卡梅德生物技术快报|Pull Down 实验在 lncRNA - 蛋白互作机制研究中的应用实例解析
大数据·前端·架构·spark·新浪微博
硅谷秋水6 分钟前
世界动作模型:具身智能的下一前沿
大数据·人工智能·深度学习·计算机视觉·语言模型·机器人
醉颜凉15 分钟前
实战教程:如何使用 Kibana 对 Elasticsearch 数据进行可视化和操作(从入门到精通)
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客1 小时前
Kibana 仪表板即代码:在 Elastic 9.4 中用于 Kibana 仪表板的 GitOps、漂移检测与 Terraform
大数据·人工智能·elasticsearch·搜索引擎·云原生·kibana·terraform
云天AI实战派1 小时前
跨境出海全流程实战:用 Medusa + Hyperswitch + ClickHouse 搭建落地页、支付订阅、客服工单与多语言 SEO 闭环
大数据·人工智能·clickhouse·独立开发·跨境出海·medusa
团象科技1 小时前
中企赴欧跨境业务布局期 欧洲主权云服务的落地适配性观察
大数据
陕西企来客2 小时前
陕西旅游酒店 GEO 服务市场深度调查:AI 搜索优化格局与真实服务真相
大数据·人工智能·旅游
phltxy2 小时前
HAProxy安装与RabbitMQ负载均衡配置
分布式·rabbitmq·负载均衡
MemoriKu2 小时前
【端侧 AI 部署】MobileCLIP 导出 ONNX/TFLite 并发布到 Hugging Face 的完整实践
大数据·人工智能·elasticsearch·搜索引擎·重构·开源
VALENIAN瓦伦尼安教学设备2 小时前
激光对中仪应用行业及全球市场份额解析
大数据·人工智能·嵌入式硬件