SpaekSql函数

1.show():

默认显示前20条数据,如需显示前5行,则用show(5)即可

2.printSchema()

输出表结构:字段名和字段数据类型等信息

3.read()

读取结构化数据文件,要根据数据文件类型的不同选用对应的函数:

csv------读取csv文件:通过option("header","true)和option("inferSchema","true")来设置读入表头和自动推断数据类型

json---读取json文件

4.select()

查询

复制代码
book.select("id","name").show()

指定字段,只需要将多个字段名放到参数的位置即可,多个字段名之间用逗号隔开

5.where(条件表达式)---筛选满足指定条件的数据

获取字段值:$

统计书名包含"微积分"的书的数量

(1)筛选到书名包含"微积分"的书---满足指定条件的数where/filter(条件表达式)

复制代码
book.where($"name".like("%微积分%"))

6.count---统计记录的条数

(2)统计(1)执行后满足条件的数据的条数

复制代码
val num = book.where($"name".like("%微积分%")).count()

【案例2】查询评分大于等于9分,小于等于9.5分,且书名包含"艺术"的书,只展示前10条的序号、书名和评分,按分数从高到低排列。

1.条件------where(1)评分大于等于9分,小于等于9.5分

(2) 书名包含"艺术"的书

2.限制数据的条数------limit

3.只要序号、书名和评分------select

4.按分数从高到低排列------orderBy

复制代码
 val df1 = book.where($"rating">=9 && $"rating"<=9.5 && $"name".like("%微积分%"))
 val df2 = df1.limit(10)
 val df3 = df2.select("id","name","rating")
 df3.orderBy($"rating".desc).show()
​

7.limit------限制数据的条数

8.orderBy------排序(默认是升序,如需要降序,需要加desc的后缀)

【课堂练习】

1.上传student.json文件到vmware中master主机上

2.将student.json文件传给slave1和slave2

复制代码
 scp -r /opt/data/student.json slave1:/opt/data
 scp -r /opt/data/student.json slave2:/opt/data

3.借助sparksql编程入口(Spark Session类)对象:spark,读取json文件

复制代码
val path = "file:///opt/data/student.json"
val student = spark.read.json(path)

4..查询学生的name,age,score,只要前两行数据

复制代码
student.select("name","age","score").show(2)
student.select("name","age","score").limit(2).show

5.给每个学生的score字段值+5,并将加和后的字段重新命名为newScore

复制代码
student.select($"name",$"score"+5 as "newScore").show

6.筛选出age大于20的学生信息

复制代码
student.where($"age">20).show

7.按照分数从高到低排序,找出前两名

复制代码
student.orderBy($"score".desc).show(2)
相关推荐
望道同学20 小时前
PMP/信息系统项目管理师 9 张 思维导图【考试必备】
前端·后端·程序员
rit843249920 小时前
压缩感知信号恢复算法:OMP与CoSaMP对比分析
数据库·人工智能·算法
Forget_855020 小时前
RHCE复习作业4
数据库
局i20 小时前
Vue 中 v-text 与 v-html 的区别:文本渲染与 HTML 解析的抉择
前端·javascript·vue.js
f***281420 小时前
【零基础学Mysql】常用函数讲解,提升数据操作效率的利器
数据库·mysql
+VX:Fegn089520 小时前
计算机毕业设计|基于springboot+vue的学校课程管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·课程设计
Elastic 中国社区官方博客21 小时前
ES|QL 在 9.2:智能查找连接和时间序列支持
大数据·数据库·人工智能·sql·elasticsearch·搜索引擎·全文检索
q***016521 小时前
PostgreSQL 17 发布了!非常稳定的版本
数据库·postgresql
菜鸟冲锋号21 小时前
问题:增量关联(实时同步新数据) 这个场景中,如果hudi_pay 变更了一条数据,hudi_order_pay_join 结果的数据会跟着变化吗
服务器·前端·数据库
贩卖黄昏的熊21 小时前
typescript 快速入门
开发语言·前端·javascript·typescript·ecmascript·es6