Spark-SQL(四)

一 在Spark 环境下使用 Hive 功能,创建表、加载数据、查询数据以及进行数据转换

1 先将需要用的movie.txt文件放到Spark-SQL/input目录下

  1. 代码如图

1)进行数据转换,创建表、加载数据、查询数据进行数据转换

运行结果

二 spark-sql实验

实验内容:统计有效数据条数用户数量最多的前二十个地址

实验过程:

1 先将需要用的user_login_info.json文件放到Spark-SQL/input目录下

2 运行代码

统计有效数据条数及用户数量最多的前二十个地址。

运行结果

可以得到文件中有效的数据有78537条,以及用户数量最多的前二十个地址。

相关推荐
IT成长日记1 小时前
Elasticsearch集群手动分片分配指南:原理与实践
大数据·elasticsearch·手动分片分配
zdkdchao8 小时前
hbase资源和数据权限控制
大数据·数据库·hbase
归去_来兮8 小时前
知识图谱技术概述
大数据·人工智能·知识图谱
计算机毕设定制辅导-无忧学长8 小时前
Kafka 核心架构与消息模型深度解析(一)
分布式·架构·kafka
一弓虽8 小时前
zookeeper 学习
分布式·学习·zookeeper
yt948329 小时前
如何在IDE中通过Spark操作Hive
ide·hive·spark
青春之我_XP9 小时前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio
predisw9 小时前
kafka consumer group rebalance
分布式·kafka
明达技术10 小时前
ProfiNet 分布式 IO 在某污水处理厂的应用
分布式
云道轩10 小时前
llm-d:面向Kubernetes的高性能分布式LLM推理框架
分布式·容器·kubernetes