Spark-SQL(四)

一 在Spark 环境下使用 Hive 功能,创建表、加载数据、查询数据以及进行数据转换

1 先将需要用的movie.txt文件放到Spark-SQL/input目录下

  1. 代码如图

1)进行数据转换,创建表、加载数据、查询数据进行数据转换

运行结果

二 spark-sql实验

实验内容:统计有效数据条数用户数量最多的前二十个地址

实验过程:

1 先将需要用的user_login_info.json文件放到Spark-SQL/input目录下

2 运行代码

统计有效数据条数及用户数量最多的前二十个地址。

运行结果

可以得到文件中有效的数据有78537条,以及用户数量最多的前二十个地址。

相关推荐
计算机毕设残哥15 分钟前
基于Hadoop+Spark的商店购物趋势分析与可视化系统技术实现
大数据·hadoop·python·scrapy·spark·django·dash
IT研究室19 分钟前
大数据毕业设计选题推荐-基于大数据的全球能源消耗量数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
武子康38 分钟前
大数据-113 Flink 源算子详解:非并行源(Non-Parallel Source)的原理与应用场景
大数据·后端·flink
失散132 小时前
分布式专题——22 Kafka集群工作机制详解
java·分布式·云原生·架构·kafka
禁默3 小时前
第四届云计算、大数据应用与软件工程国际学术会议(CBASE 2025)
大数据·云计算
Lansonli3 小时前
大数据Spark(六十五):Transformation转换算子groupByKey和filter
大数据·分布式·spark
拾忆,想起4 小时前
RabbitMQ死信交换机:消息的“流放之地“
开发语言·网络·分布式·后端·性能优化·rabbitmq
数据皮皮侠AI4 小时前
再发《管理世界》!智能制造试点DID(2000-2023)
大数据·数据库·人工智能·科技·金融·制造
菜鸡儿齐4 小时前
flink api-datastream api-source算子
大数据·flink
沐浴露z5 小时前
一篇文章入门RabbitMQ:基本概念与Java使用
java·分布式·rabbitmq