Hive企业级调优[2]—— 测试用表

目录

测试用表

订单表 (2000万条数据)

支付表 (600万条数据)

商品信息表 (100万条数据)

省份信息表 (34条数据)


测试用表

订单表 (2000万条数据)

1)表结构

id (订单id) user_id (用户id) product_id (商品id) province_id (省份id) create_time (下单时间) product_num (商品件数) total_amount (订单金额)
10000001 125442354 15003199 1 2020-06-14 03:54:29 3 100.58
10000002 192758405 17210367 1 2020-06-14 01:19:47 8 677.18

2)建表语句

sql 复制代码
hive (default)> 
drop table if exists order_detail;
 create table order_detail(
     id           string comment '订单id',
     user_id      string comment '用户id',
     product_id   string comment '商品id',
     province_id  string comment '省份id',
     create_time  string comment '下单时间',
     product_num  int comment '商品件数',
     total_amount decimal(16, 2) comment '下单金额'
 )
 partitioned by (dt string)
 row format delimited fields terminated by '\t';

3)数据装载

order_detail.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)

注:文件较大,请耐心等待。

sql 复制代码
hive (default)> load data local inpath '/opt/module/hive/datas/order_detail.txt' overwrite into table order_detail partition(dt='2020-06-14');
支付表 (600万条数据)

1)表结构

id (支付id) order_detail_id (订单id) user_id (用户id) payment_time (支付时间) total_amount (订单金额)
10000001 17403042 131508758 2020-06-14 13:55:44 391.72
10000002 19198884 133018075 2020-06-14 08:46:23 657.10

2)建表语句

sql 复制代码
hive (default)> 
drop table if exists payment_detail;
 create table payment_detail(
     id              string comment '支付id',
     order_detail_id string comment '订单明细id',
     user_id         string comment '用户id',
     payment_time    string comment '支付时间',
     total_amount    decimal(16, 2) comment '支付金额'
 )
 partitioned by (dt string)
 row format delimited fields terminated by '\t';

3)数据装载

payment_detail.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)

注:文件较大,请耐心等待。

sql 复制代码
hive (default)> load data local inpath '/opt/module/hive/datas/payment_detail.txt' overwrite into table payment_detail partition(dt='2020-06-14');
商品信息表 (100万条数据)

1)表结构

id (商品id) product_name (商品名称) price (价格) category_id (分类id)
1000001 CuisW 4517.00 219
1000002 TBtbp 9357.00 208

2)建表语句

sql 复制代码
hive (default)> 
drop table if exists product_info;
 create table product_info(
     id           string comment '商品id',
     product_name string comment '商品名称',
     price        decimal(16, 2) comment '价格',
     category_id  string comment '分类id'
 )
 row format delimited fields terminated by '\t';

3)数据装载

product_info.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)

sql 复制代码
hive (default)> load data local inpath '/opt/module/hive/datas/product_info.txt' overwrite into table product_info;
省份信息表 (34条数据)

1)表结构

id (省份id) province_name (省份名称)
1 北京
2 天津

2)建表语句

sql 复制代码
hive (default)> 
drop table if exists province_info;
 create table province_info(
     id            string comment '省份id',
     province_name string comment '省份名称'
 )
 row format delimited fields terminated by '\t';

3)数据装载

province_info.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)

sql 复制代码
hive (default)> load data local inpath '/opt/module/hive/datas/province_info.txt' overwrite into table province_info;

注:需要下载源数据的,评论区私俺

相关推荐
段一凡-华北理工大学7 小时前
工业领域的Hadoop架构学习~系列文章08:Flink流处理引擎
人工智能·hadoop·学习·架构·flink·高炉炼铁·高炉炼铁智能化
段一凡-华北理工大学7 小时前
工业领域的Hadoop架构学习~系列文章07:Spark内存计算引擎
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
RestCloud1 天前
从架构师视角看ETL工具选型:如何构建可演进的数据集成平台
数据仓库·etl·cdc·数据处理·数据传输·elt
卷毛迷你猪1 天前
快速实验篇(A3)基于 Hive 的气象数据数仓构建与干旱指标初步分析
大数据·hadoop·分布式
卷毛迷你猪1 天前
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析
数据仓库·hive·hadoop·分布式
冰上浮云1 天前
Gravitino iceberg catalog backend 为hive 获取元数据过程
数据仓库·hive·hadoop·gravitino
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章06:Hive数据仓库
数据仓库·hadoop·架构·高炉炼铁·工业智能体·高炉智能化·hive数据仓库
zgl_200537792 天前
源代码:跨数据库通用SQL语法解析与标注拆解
大数据·数据库·数据仓库·sql·etl·源代码管理
暴躁小师兄数据学院2 天前
【AI大数据工程师特训笔记】第13讲:数据库性能手术刀
大数据·数据库·数据仓库·sql·postgresql
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章04:YARN资源调度架构
人工智能·hadoop·学习·架构·系统架构·高炉炼铁·高炉炼铁智能化