Spark-SQL(四)

一 在Spark 环境下使用 Hive 功能,创建表、加载数据、查询数据以及进行数据转换

1 先将需要用的movie.txt文件放到Spark-SQL/input目录下

  1. 代码如图

1)进行数据转换,创建表、加载数据、查询数据进行数据转换

运行结果

二 spark-sql实验

实验内容:统计有效数据条数用户数量最多的前二十个地址

实验过程:

1 先将需要用的user_login_info.json文件放到Spark-SQL/input目录下

2 运行代码

统计有效数据条数及用户数量最多的前二十个地址。

运行结果

可以得到文件中有效的数据有78537条,以及用户数量最多的前二十个地址。

相关推荐
Robot2513 小时前
「华为」人形机器人赛道投资首秀!
大数据·人工智能·科技·microsoft·华为·机器人
山猪打不过家猪4 小时前
(五)毛子整洁架构(分布式日志/Redis缓存/OutBox Pattern)
分布式·缓存
jstart千语9 小时前
【Redis】分布式锁的实现
数据库·redis·分布式
CONTONUE10 小时前
运行Spark程序-在Idea中(二)
大数据·spark·intellij-idea
计算机人哪有不疯的10 小时前
图文展示HDFS、YARN、MapReduce三者关系
大数据·spark
祈53310 小时前
MapReduce 的工作原理
大数据·mapreduce
Agatha方艺璇10 小时前
MapReduce报错 HADOOP_HOME and hadoop.home.dir are unset.
大数据·hadoop·mapreduce
@十八子德月生11 小时前
8天Python从入门到精通【itheima】-1~5
大数据·开发语言·python·学习
元63311 小时前
Hadoop集群的常用命令
大数据·hadoop
掘金-我是哪吒12 小时前
分布式微服务系统架构第125集:AI大模型
分布式