大数据课程K22——Spark的SparkSQL的API调用

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州

▲ 本章节目的

⚪ 掌握Spark的通过api使用SparkSQL;

一、通过api使用SparkSQL

1. 实现步骤

  1. 打开scala IDE开发环境,创建一个scala工程。

  2. 导入spark相关依赖jar包。

  1. 创建包路径以object类。

  2. 写代码。

5)打jar包,并上传到linux虚拟机上

6)在spark的bin目录下

执行:sh spark-submit --class cn.tedu.sparksql.Demo01 ./sqlDemo01.jar

7)最后检验

2. 代码示例

package cn.tedu.sparksql
import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

object Demo01 {

def main(args: ArrayString): Unit = {

val conf=new SparkConf().setMaster("spark://hadoop01:7077").setAppName("sqlDemo01");

val sc=new SparkContext(conf)

val sqlContext=new SQLContext(sc)

val rdd=sc.makeRDD(List((1,"zhang"),(2,"li"),(3,"wang")))

import sqlContext.implicits._

val df=rdd.toDF("id","name")

df.registerTempTable("tabx")

val df2=sqlContext.sql("select * from tabx order by name");

val rdd2=df2.toJavaRDD;

//将结果输出到linux的本地目录下,当然,也可以输出到HDFS上

rdd2.saveAsTextFile("file:///home/software/result");

}

}

相关推荐
xixixi7777720 分钟前
空天地通信、高速光模块、AI 智能体攻击、同态加密芯片四大事件解读:AI 算力底座攻防与全域通信同步升级
大数据·人工智能·深度学习·ai·大模型·光模块·智能体
水木流年追梦27 分钟前
大模型入门-大模型优化方法13- MTP 多 token 输出、DCA 双块注意力
人工智能·分布式·算法·正则表达式·prompt
数据皮皮侠32 分钟前
全国消协智慧 315 平台投诉信息数据库
大数据·人工智能·算法·百度·制造
2601_9594819232 分钟前
CPT Markets:把平台稳定性做到位——视角梳理与提示整理
大数据
ihuyigui36 分钟前
国际商超零售短信接口
大数据·前端·后端·架构·零售
湘美书院--湘美谈教育41 分钟前
湘美谈教育AI经验集锦:细分领域的标准定义者
大数据·人工智能·深度学习
SelectDB42 分钟前
Agentic Analytics 时代,AI Agent 真正需要怎样的数据基座?
大数据·agent·自动化运维
weixin_549808361 小时前
从“大海捞针“到“精准定位“:易薪路AI人才罗盘如何用AI重构企业人才选拔与组织发展
大数据·人工智能·重构
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章20:故障诊断与根因分析 - 从表象到本质的智能推理
大数据·人工智能·hadoop·学习·架构·高炉炼铁·工业智能体
java_cj1 小时前
Elasticsearch索引管理完全指南:从基础API到ILM生命周期管理
大数据·后端·elasticsearch·性能优化