1 准备数据
我们这次Spark-sql操作所有的数据均来自Hive,首先在Hive中创建表,并导入数据。一共有3张表:1张用户行为表,1张城市表,1张产品表。
1)将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data
atguigu@hadoop102 module\]$ mkdir data
2)将创建对应的三张表
```
hive (default)>`
`CREATE` `TABLE `user_visit_action`(`
` `date` string,`
` `user_id` bigint,`
` `session_id` string,`
` `page_id` bigint,`
` `action_time` string,`
` `search_keyword` string,`
` `click_category_id` bigint,`
` `click_product_id` bigint,` `--点击商品id,没有商品用-1表示。`
` `order_category_ids` string,`
` `order_product_ids` string,`
` `pay_category_ids` string,`
` `pay_product_ids` string,`
` `city_id` bigint --城市id`
`)`
`row format delimited fields terminated by '\t';`
`CREATE` `TABLE `city_info`(`
` `city_id` bigint,` `--城市id`
` `city_name` string,` `--城市名称`
` `area` string --区域名称`
`)`
`row format delimited fields terminated by '\t';`
`CREATE` `TABLE `product_info`(`
` `product_id` bigint,` `-- 商品id`
` `product_name` string,` `--商品名称`
` `extend_info` string`
`)`
`row format delimited fields terminated by '\t';`
`
```
3)并加载数据
```
hive (default)>`
`load data local inpath '/opt/module/data/user_visit_action.txt' into table user_visit_action;`
`load data local inpath '/opt/module/data/product_info.txt' into table product_info;`
`load data local inpath '/opt/module/data/city_info.txt' into table city_info;
```
4)测试一下三张表数据是否正常
```
hive (default)>`
`select * from user_visit_action limit 5;`
`select * from product_info limit 5;`
`select * from city_info limit 5;`
`
```
## **2** **需求:各区域** **热门** **商品Top3**
### **2** **.1 需求简介**
这里的热门商品是从点击量的维度来看的,计算各个区域前三大热门商品,并备注上每个商品在主要城市中的分布比例,超过两个城市用其他显示。
例如:
|--------|----------|----------|----------|
| **地区** | **商品名称** | **点击次数** | **城市备注** |
|----|-----|--------|-------------------------|
| 华北 | 商品A | 100000 | 北京21.2%,天津13.2%,其他65.6% |
| 华北 | 商品P | 80200 | 北京63.0%,太原10%,其他27.0% |
| 华北 | 商品M | 40000 | 北京63.0%,太原10%,其他27.0% |
| 东北 | 商品J | 92000 | 大连28%,辽宁17.0%,其他 55.0% |
### **2** **.2 思路分析**
```
CREATE` `TABLE `user_visit_action`(`
` `date` string,`
` `user_id` bigint,`
` `session_id` string,`
` `page_id` bigint,`
` `action_time` string,`
` `search_keyword` string,`
` `click_category_id` bigint,`
` `click_product_id` bigint,` `--点击商品id,没有商品用-1表示。`
` `order_category_ids` string,`
` `order_product_ids` string,`
` `pay_category_ids` string,`
` `pay_product_ids` string,`
` `city_id` bigint --城市id`
`)`
`CREATE` `TABLE `city_info`(`
` `city_id` bigint,` `--城市id`
` `city_name` string,` `--城市名称`
` `area` string --区域名称`
`)`
`CREATE` `TABLE `product_info`(`
` `product_id` bigint,` `-- 商品id`
` `product_name` string,` `--商品名称`
` `extend_info` string`
`)`
`city_remark`
`IN: 城市名称 String`
`BUFF: totalcnt总点击量,Map[(cityName, 点击数量)]`
`OUT:城市备注 String
`
`select`
` c.area,` `--地区`
` c.city_name,` `-- 城市`
` p.product_name,` `-- 商品名称`
` v.click_product_id -- 点击商品id`
`from user_visit_action v`
`join city_info c`
`on v.city_id = c.city_id`
`join product_info p`
`on v.click_product_id = p.product_id`
`where click_product_id >` `-1`
`select`
` t1.area,` `--地区`
` t1.product_name,` `-- 商品名称`
`count(*) click_count,` `-- 商品点击次数`
`city_remark(t1.city_name)` `--城市备注`
`from t1`
`group by t1.area, t1.product_name`
`select`
`*,`
`rank()` `over(partition by t2.area order by t2.click_count desc) rank -- 每个区域内按照点击量,倒序排行`
`from t2`
`select`
`*`
`from t3`
`where rank <=` `3`
`
```
使用Spark-SQL来完成复杂的需求,可以使用UDF或UDAF。
(1)查询出来所有的点击记录,并与city_info表连接,得到每个城市所在的地区,与 Product_info表连接得到商品名称。
(2)按照地区和商品名称分组,统计出每个商品在每个地区的总点击次数。
(3)每个地区内按照点击次数降序排列。
(4)只取前三名,并把结果保存在数据库中。
(5)城市备注需要自定义UDAF函数。
### **2** **.3 代码实现**
```
package com.atguigu.sparksql.demo;`
`import lombok.Data;`
`import org.apache.spark.SparkConf;`
`import org.apache.spark.sql.*;`
`import org.apache.spark.sql.expressions.Aggregator;`
`import java.io.Serializable;`
`import java.util.ArrayList;`
`import java.util.HashMap;`
`import java.util.TreeMap;`
`import java.util.function.BiConsumer;`
`import` `static org.apache.spark.sql.functions.udaf;`
`public` `class` `Test01_Top3` `{`
`public` `static void main(String[] args)` `{`
`// 1. 创建sparkConf配置对象`
`SparkConf conf =` `new` `SparkConf().setAppName("sql").setMaster("local[*]");`
`// 2. 创建sparkSession连接对象`
`SparkSession spark =` `SparkSession.builder().enableHiveSupport().config(conf).getOrCreate();`
`// 3. 编写代码`
`// 将3个表格数据join在一起`
`Dataset