Spark-SQL(四)

一 在Spark 环境下使用 Hive 功能,创建表、加载数据、查询数据以及进行数据转换

1 先将需要用的movie.txt文件放到Spark-SQL/input目录下

  1. 代码如图

1)进行数据转换,创建表、加载数据、查询数据进行数据转换

运行结果

二 spark-sql实验

实验内容:统计有效数据条数用户数量最多的前二十个地址

实验过程:

1 先将需要用的user_login_info.json文件放到Spark-SQL/input目录下

2 运行代码

统计有效数据条数及用户数量最多的前二十个地址。

运行结果

可以得到文件中有效的数据有78537条,以及用户数量最多的前二十个地址。

相关推荐
一个java开发23 分钟前
distributed.client.Client 用户可调用函数分析
大数据·python
JAVA学习通2 小时前
【RabbitMQ】如何在 Ubuntu 安装 RabbitMQ
分布式·rabbitmq
字节数据平台2 小时前
一客一策:Data Agent 如何重构大模型时代的智能营销
大数据·人工智能·重构
字节跳动数据平台2 小时前
《十六进制觉醒》:与我们一起,探索AI与数据的无限可能!
大数据
道一云黑板报2 小时前
Spark生态全景图:图计算与边缘计算的创新实践
大数据·性能优化·spark·边缘计算
Lansonli2 小时前
大数据Spark(六十三):RDD-Resilient Distributed Dataset
大数据·分布式·spark
时序数据说3 小时前
国内开源时序数据库IoTDB介绍
大数据·数据库·物联网·开源·时序数据库·iotdb
BYSJMG3 小时前
计算机毕业设计选题:基于Spark+Hadoop的健康饮食营养数据分析系统【源码+文档+调试】
大数据·vue.js·hadoop·分布式·spark·django·课程设计
JAVA学习通3 小时前
【RabbitMQ】----RabbitMQ 的7种工作模式
分布式·rabbitmq
YangYang9YangYan3 小时前
2025年金融专业人士职业认证发展路径分析
大数据·人工智能·金融