目录
测试用表
订单表 (2000万条数据)
1)表结构
id (订单id) | user_id (用户id) | product_id (商品id) | province_id (省份id) | create_time (下单时间) | product_num (商品件数) | total_amount (订单金额) |
---|---|---|---|---|---|---|
10000001 | 125442354 | 15003199 | 1 | 2020-06-14 03:54:29 | 3 | 100.58 |
10000002 | 192758405 | 17210367 | 1 | 2020-06-14 01:19:47 | 8 | 677.18 |
2)建表语句
sql
hive (default)>
drop table if exists order_detail;
create table order_detail(
id string comment '订单id',
user_id string comment '用户id',
product_id string comment '商品id',
province_id string comment '省份id',
create_time string comment '下单时间',
product_num int comment '商品件数',
total_amount decimal(16, 2) comment '下单金额'
)
partitioned by (dt string)
row format delimited fields terminated by '\t';
3)数据装载
将 order_detail.txt
文件上传到 hadoop12 节点的 /opt/module/hive/datas/
目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)
注:文件较大,请耐心等待。
sql
hive (default)> load data local inpath '/opt/module/hive/datas/order_detail.txt' overwrite into table order_detail partition(dt='2020-06-14');
支付表 (600万条数据)
1)表结构
id (支付id) | order_detail_id (订单id) | user_id (用户id) | payment_time (支付时间) | total_amount (订单金额) |
---|---|---|---|---|
10000001 | 17403042 | 131508758 | 2020-06-14 13:55:44 | 391.72 |
10000002 | 19198884 | 133018075 | 2020-06-14 08:46:23 | 657.10 |
2)建表语句
sql
hive (default)>
drop table if exists payment_detail;
create table payment_detail(
id string comment '支付id',
order_detail_id string comment '订单明细id',
user_id string comment '用户id',
payment_time string comment '支付时间',
total_amount decimal(16, 2) comment '支付金额'
)
partitioned by (dt string)
row format delimited fields terminated by '\t';
3)数据装载
将 payment_detail.txt
文件上传到 hadoop12 节点的 /opt/module/hive/datas/
目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)
注:文件较大,请耐心等待。
sql
hive (default)> load data local inpath '/opt/module/hive/datas/payment_detail.txt' overwrite into table payment_detail partition(dt='2020-06-14');
商品信息表 (100万条数据)
1)表结构
id (商品id) | product_name (商品名称) | price (价格) | category_id (分类id) |
---|---|---|---|
1000001 | CuisW | 4517.00 | 219 |
1000002 | TBtbp | 9357.00 | 208 |
2)建表语句
sql
hive (default)>
drop table if exists product_info;
create table product_info(
id string comment '商品id',
product_name string comment '商品名称',
price decimal(16, 2) comment '价格',
category_id string comment '分类id'
)
row format delimited fields terminated by '\t';
3)数据装载
将 product_info.txt
文件上传到 hadoop12 节点的 /opt/module/hive/datas/
目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)
sql
hive (default)> load data local inpath '/opt/module/hive/datas/product_info.txt' overwrite into table product_info;
省份信息表 (34条数据)
1)表结构
id (省份id) | province_name (省份名称) |
---|---|
1 | 北京 |
2 | 天津 |
2)建表语句
sql
hive (default)>
drop table if exists province_info;
create table province_info(
id string comment '省份id',
province_name string comment '省份名称'
)
row format delimited fields terminated by '\t';
3)数据装载
将 province_info.txt
文件上传到 hadoop12 节点的 /opt/module/hive/datas/
目录,并执行以下导入语句。(数据可根据表结构自行模拟数据)
sql
hive (default)> load data local inpath '/opt/module/hive/datas/province_info.txt' overwrite into table province_info;
注:需要下载源数据的,评论区私俺