Hive数据分析 (0 / 100分)
基于Hive数据仓库,针对特定问题场景完成数据统计分析。
注意:本模块使用到Hadoop集群
- 更新/etc/hosts文件,将虚拟机内网IP写入文件,对应映射名为bigdata
- 免密(注意二次确认):ssh-keygen -R bigdata && ssh bigdata
- 设置主机名:hostname master && bash
- 开启集群命令:bash /root/software/script/hybigdata.sh start
注意:如果环境进入安全模式,使用hdfs dfsadmin -safemode leave可离开安全模式。
基于Hive数据仓库,针对特定问题场景完成数据统计分析
(20 / 100分)
Hive数据表字段信息:
ip数据表说明
字段名 | 数据类型 | 描述信息 |
---|---|---|
ip_start | STRING | Start IP |
ip_end | STRING | End IP |
location | STRING | Location |
isp | STRING | ISP information |
log数据表说明
字段名 | 数据类型 | 描述信息 |
---|---|---|
id | BIGINT | Log ID |
ip | STRING | User IP address |
access_time | STRING | Access time |
access_url | STRING | Access URL |
status | INT | Status code |
traffic | BIGINT | Traffic generated by the access |
source_url | STRING | Referrer URL |
shell
hostname master && bash
vim /etc/hosts
ssh-keygen -R bigdata && ssh bigdata
schematool -dbType mysql -initSchema
bash /root/software/script/hybigdata.sh start
hive
# 1.在Hadoop上,安装并配置Hive数据仓库软件。完成后,启动Hive服务,创建"web"数据库,执行指令"show databases;"并输出相应结果。
# 启动Hive服务,创建"web"数据库,执行指令"show databases;"并输出相应结果。
create database web;
show databases;
# 2.创建库表并查看输出相应字段信息
# 在"web"数据库内分别创建数据表"ip"和"log"。字段及属性要求如题干所示。创建完成后,执行指令"DESCRIBE ip;"与"DESCRIBE log;"查看其字段信息,并输出相应结果。
use web;
CREATE TABLE ip(
ip_start string,
ip_end string,
location string,
isp string
)row format delimited fields terminated by ',';
CREATE TABLE log(
id bigint,
ip string,
access_time string,
access_url string,
status int,
traffic bigint,
source_url string
)row format delimited fields terminated by '\t';
# 3.导入数据到Hive表中
# 将"log_processed.txt"数据导入上述"log"数据表中。
#执行"SELECT count(*) from web.log where log.status='301';" 指令,查询其记录总数
# 将表查询的数量结果存入ip_log_num表中
LOAD DATA LOCAL INPATH '/root/service/yunan/result/log_processed.txt' INTO TABLE log;
ip_log_num表
字段 数据类型 描述
type STRING ip或者log的查询
num INT 数量
CREATE TABLE ip_log_num(
type string,
num int
)row format delimited fields terminated by ',';
INSERT INTO TABLE ip_log_num VALUES ('301', 2951);
select * from ip_log_num;