Hive数仓操作(十二)

一、Hive 中的行列转换

1. 行转列: collect_list()

collect_list() 函数用于将一个列中的数据收集成一个数组。

示例数据文件

假设有一个名为 orders.txt 的文件,内容如下:

1,101
1,101
1,103
2,104
2,105
导入数据到 Hive 表

首先,我们创建一个表 orders 并将数据导入到该表中:

sql 复制代码
-- 创建表
CREATE TABLE orders (
    user_id INT,
    order_id INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/orders.txt' INTO TABLE orders;

然后,我们可以使用 collect_list() 函数收集每个用户的订单 ID:

sql 复制代码
SELECT
    user_id,
    collect_list(order_id) as order_ids
FROM
    orders
GROUP BY
    user_id;
示例结果
user_id order_ids
1 [101, 101, 103]
2 [104, 105]

2. 行转列:collect_set()

collect_set() 函数类似于 collect_list(),但它会移除数组中的重复值。

示例数据文件

使用同一个 orders.txt 文件。

导入数据到 Hive 表

数据已经导入过,因此我们直接使用 collect_set() 函数:

sql 复制代码
SELECT
    user_id,
    collect_set(order_id) as unique_order_ids
FROM
    orders
GROUP BY
    user_id;
示例结果
user_id unique_order_ids
1 [101, 103]
2 [104, 105]

3. 列转行:explode()

explode() 函数用于将数组里的元素拆分开来,并用行展示。通常与 lateral view 函数搭配使用。

示例数据文件

假设有一个名为 user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

使用 explode() 函数炸裂拆分:

sql 复制代码
SELECT
    user_id,
    interest
FROM
    user_interests
LATERAL VIEW
    explode(split(interests, ',')) exploded_table AS interest;
-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_interests.txt' INTO TABLE user_interests;
示例结果
user_id interest
1 sports
1 music
1 art
2 reading
2 travel

二、Hive 收集切割

1. split()

split() 函数用于将一个字符串按照指定的分隔符切割成一个数组。

示例数据文件

user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

user_interests 已创建,然后,使用 split() 将兴趣字符串分割成数组:

sql 复制代码
SELECT
    user_id,
    split(interests, ',') as interest_array
FROM
    user_interests;
示例结果
user_id interest_array
1 ["sports", "music", "art"]
2 ["reading", "travel"]

2. split()常和concat_ws() 一起使用

concat_ws() 是一个字符串函数,用于将多列的值合并成一个字符串,使用指定的分隔符。split() 函数则用于将字符串按照指定的分隔符切割成一个数组。

示例数据文件

假设有一个名为 user_info.txt 的文件,内容如下:

1,John,Doe,john.doe@example.com
2,Jane,Smith,jane.smith@example.com
导入数据到 Hive 表

首先,我们创建一个表 user_info 并将数据导入到该表中:

sql 复制代码
-- 创建表
CREATE TABLE user_info (
    user_id INT,
    first_name STRING,
    last_name STRING,
    email STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_info.txt' INTO TABLE user_info;

然后,使用 concat_ws() 将多列的值合并成一个字符串,并使用 split() 将这个字符串拆分成数组:

sql 复制代码
SELECT
    user_id,
    split(concat_ws(',', first_name, last_name, email), ',') as info_array
FROM
    user_info;
示例结果
user_id info_array
1 ["John", "Doe", "john.doe@example.com"]
2 ["Jane", "Smith", "jane.smith@example.com"]

更多细节可参考我的sql题专栏中的炸裂函数与恢复

经典sql题(十三)炸裂对应学生的姓名和成绩
经典sql题(十四)炸裂函数的恢复

相关推荐
DavidSoCool19 分钟前
es 3期 第25节-运用Rollup减少数据存储
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客23 分钟前
使用 Elasticsearch 导航检索增强生成图表
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
小金的学习笔记27 分钟前
RedisTemplate和Redisson的使用和区别
数据库·redis·缓存
Ray.199838 分钟前
Flink在流处理中,为什么还会有窗口的概念呢
大数据·flink
抛砖者38 分钟前
3.Flink中重要API的使用
大数据·flink
新知图书42 分钟前
MySQL用户授权、收回权限与查看权限
数据库·mysql·安全
金州饿霸42 分钟前
Flink运行时架构
大数据·flink
金州饿霸43 分钟前
Flink中的时间和窗口
大数据·flink
文城5211 小时前
Mysql存储过程(学习自用)
数据库·学习·mysql
沉默的煎蛋1 小时前
MyBatis 注解开发详解
java·数据库·mysql·算法·mybatis