大数据课程K22——Spark的SparkSQL的API调用

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州

▲ 本章节目的

⚪ 掌握Spark的通过api使用SparkSQL;

一、通过api使用SparkSQL

1. 实现步骤

  1. 打开scala IDE开发环境,创建一个scala工程。

  2. 导入spark相关依赖jar包。

  1. 创建包路径以object类。

  2. 写代码。

5)打jar包,并上传到linux虚拟机上

6)在spark的bin目录下

执行:sh spark-submit --class cn.tedu.sparksql.Demo01 ./sqlDemo01.jar

7)最后检验

2. 代码示例

package cn.tedu.sparksql
import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

object Demo01 {

def main(args: Array[String]): Unit = {

val conf=new SparkConf().setMaster("spark://hadoop01:7077").setAppName("sqlDemo01");

val sc=new SparkContext(conf)

val sqlContext=new SQLContext(sc)

val rdd=sc.makeRDD(List((1,"zhang"),(2,"li"),(3,"wang")))

import sqlContext.implicits._

val df=rdd.toDF("id","name")

df.registerTempTable("tabx")

val df2=sqlContext.sql("select * from tabx order by name");

val rdd2=df2.toJavaRDD;

//将结果输出到linux的本地目录下,当然,也可以输出到HDFS上

rdd2.saveAsTextFile("file:///home/software/result");

}

}

相关推荐
Bug退退退1233 小时前
RabbitMQ 高级特性之死信队列
java·分布式·spring·rabbitmq
prince054 小时前
Kafka 生产者和消费者高级用法
分布式·kafka·linq
诗旸的技术记录与分享5 小时前
Flink-1.19.0源码详解-番外补充3-StreamGraph图
大数据·flink
资讯分享周5 小时前
Alpha系统联结大数据、GPT两大功能,助力律所管理降本增效
大数据·gpt
菜萝卜子5 小时前
【Project】基于kafka的高可用分布式日志监控与告警系统
分布式·kafka
G皮T6 小时前
【Elasticsearch】深度分页及其替代方案
大数据·elasticsearch·搜索引擎·scroll·检索·深度分页·search_after
TDengine (老段)7 小时前
TDengine STMT2 API 使用指南
java·大数据·物联网·时序数据库·iot·tdengine·涛思数据
华子w9089258598 小时前
基于 Python Django 和 Spark 的电力能耗数据分析系统设计与实现7000字论文实现
python·spark·django
用户Taobaoapi20148 小时前
母婴用品社媒种草效果量化:淘宝详情API+私域转化追踪案例
大数据·数据挖掘·数据分析
G皮T9 小时前
【Elasticsearch】检索排序 & 分页
大数据·elasticsearch·搜索引擎·排序·分页·检索·深度分页