Spark-SQL(四)

一 在Spark 环境下使用 Hive 功能,创建表、加载数据、查询数据以及进行数据转换

1 先将需要用的movie.txt文件放到Spark-SQL/input目录下

  1. 代码如图

1)进行数据转换,创建表、加载数据、查询数据进行数据转换

运行结果

二 spark-sql实验

实验内容:统计有效数据条数用户数量最多的前二十个地址

实验过程:

1 先将需要用的user_login_info.json文件放到Spark-SQL/input目录下

2 运行代码

统计有效数据条数及用户数量最多的前二十个地址。

运行结果

可以得到文件中有效的数据有78537条,以及用户数量最多的前二十个地址。

相关推荐
亲爱的非洲野猪2 分钟前
Kafka消息积压全面解决方案:从应急处理到系统优化
分布式·kafka
掘金-我是哪吒42 分钟前
分布式微服务系统架构第157集:JavaPlus技术文档平台日更-Java多线程编程技巧
java·分布式·微服务·云原生·架构
掘金-我是哪吒1 小时前
分布式微服务系统架构第155集:JavaPlus技术文档平台日更-Java线程池实现原理
java·分布式·微服务·云原生·架构
Bug退退退12310 小时前
RabbitMQ 高级特性之死信队列
java·分布式·spring·rabbitmq
prince0511 小时前
Kafka 生产者和消费者高级用法
分布式·kafka·linq
诗旸的技术记录与分享12 小时前
Flink-1.19.0源码详解-番外补充3-StreamGraph图
大数据·flink
资讯分享周12 小时前
Alpha系统联结大数据、GPT两大功能,助力律所管理降本增效
大数据·gpt
菜萝卜子12 小时前
【Project】基于kafka的高可用分布式日志监控与告警系统
分布式·kafka
G皮T14 小时前
【Elasticsearch】深度分页及其替代方案
大数据·elasticsearch·搜索引擎·scroll·检索·深度分页·search_after
TDengine (老段)14 小时前
TDengine STMT2 API 使用指南
java·大数据·物联网·时序数据库·iot·tdengine·涛思数据