spark11-sparkSQL 实现wordcount

文件名为 words.txt

spark scala

hello spark

word word

复制代码
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{DataFrame, SQLContext, SparkSession}

object SparkSqlHelloWorld {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[1]").setAppName("sql")
    val session: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    val sc: SparkContext = session.sparkContext
    val sqlContext: SQLContext = session.sqlContext
    val rdd: RDD[String] = sc.textFile("/Users/yolo/IdeaProjects/SparkStudy/src/main/scala/works.txt")
    import session.implicits._
    val df: DataFrame = rdd.flatMap(_.split(" ")).toDF("wd")
    df.createTempView("words")
    val sql = sqlContext.sql("select wd,count(1) from words group by wd")
    sql.show()
    sql.rdd.repartition(1).saveAsTextFile("/Users/yolo/IdeaProjects/SparkStudy/src/main/scala/worksCnt")
    session.close()
  }
}
相关推荐
talen_hx296几秒前
《零基础入门Spark》学习笔记 Day 14
大数据·笔记·学习·spark
xiaoyaohou112 小时前
025、分布式计算实战:Spark Core与Spark SQL
sql·ajax·spark
xiaoyaohou112 小时前
024、大数据技术栈概览:Hadoop、Spark与Flink
大数据·hadoop·spark
2501_948114243 小时前
Muse Spark 闭源转型背后的系统化演进:PAO 架构、KV Cache 压缩与聚合接入实践
大数据·架构·spark
Henb9294 小时前
# Spark 内核级调优源码分析
大数据·ajax·spark
薛定猫AI4 小时前
【深度解析】Meta Muse Spark:原生多模态推理模型与多智能体编排的工程化实践
大数据·分布式·spark
xiaoyaohou114 小时前
026、流式计算:Kafka与Spark Streaming实时处理
spark·kafka·linq
chaofan98020 小时前
Meta Muse Spark 深度解构:并联智能体架构与开发者接入实战指南
大数据·架构·spark
初遇见20 小时前
【DGX Spark v3.0:基于多智能体交互网络与 Alpaca 实盘集成的企业级量化交易系统】
大数据·网络·spark·nvidia