【人工智能训练师】5 hive数据分析

Hive数据分析 (0 / 100分)

基于Hive数据仓库,针对特定问题场景完成数据统计分析。

注意:本模块使用到Hadoop集群

  1. 更新/etc/hosts文件,将虚拟机内网IP写入文件,对应映射名为bigdata
  2. 免密(注意二次确认):ssh-keygen -R bigdata && ssh bigdata
  3. 设置主机名:hostname master && bash
  4. 开启集群命令:bash /root/software/script/hybigdata.sh start

注意:如果环境进入安全模式,使用hdfs dfsadmin -safemode leave可离开安全模式。

基于Hive数据仓库,针对特定问题场景完成数据统计分析

(20 / 100分)

Hive数据表字段信息:

ip数据表说明

字段名 数据类型 描述信息
ip_start STRING Start IP
ip_end STRING End IP
location STRING Location
isp STRING ISP information

log数据表说明

字段名 数据类型 描述信息
id BIGINT Log ID
ip STRING User IP address
access_time STRING Access time
access_url STRING Access URL
status INT Status code
traffic BIGINT Traffic generated by the access
source_url STRING Referrer URL
shell 复制代码
hostname master && bash
vim /etc/hosts
ssh-keygen -R bigdata && ssh bigdata
schematool -dbType mysql -initSchema
bash /root/software/script/hybigdata.sh start
hive

# 1.在Hadoop上,安装并配置Hive数据仓库软件。完成后,启动Hive服务,创建"web"数据库,执行指令"show databases;"并输出相应结果。
# 启动Hive服务,创建"web"数据库,执行指令"show databases;"并输出相应结果。
create database web;
show databases;

# 2.创建库表并查看输出相应字段信息
# 在"web"数据库内分别创建数据表"ip"和"log"。字段及属性要求如题干所示。创建完成后,执行指令"DESCRIBE ip;"与"DESCRIBE log;"查看其字段信息,并输出相应结果。
use web;

CREATE TABLE ip(
    ip_start string,
    ip_end string,
    location string,
    isp string
)row format delimited fields terminated by ',';

CREATE TABLE log(
    id bigint,
    ip string,
    access_time string,
    access_url string,
    status int,
    traffic bigint,
    source_url string
)row format delimited fields terminated by '\t';

# 3.导入数据到Hive表中
# 将"log_processed.txt"数据导入上述"log"数据表中。
#执行"SELECT count(*) from web.log where log.status='301';" 指令,查询其记录总数
# 将表查询的数量结果存入ip_log_num表中
LOAD DATA LOCAL INPATH '/root/service/yunan/result/log_processed.txt' INTO TABLE log;

ip_log_num表

字段	数据类型	描述
type	STRING	ip或者log的查询
num	INT	数量

CREATE TABLE ip_log_num(
    type string,
    num int
)row format delimited fields terminated by ',';


INSERT INTO TABLE ip_log_num VALUES ('301', 2951);
select * from ip_log_num;
相关推荐
Johny_Zhao3 分钟前
HSRP、GLBP、VRRP、NSRP 协议对比与配置指南
网络·人工智能·网络安全·信息安全·云计算·cisco·huawei·系统运维·华三
深蓝易网1 小时前
打破传统仓库管理困局:WMS如何重构出入库全流程
大数据·运维·人工智能·重构·数据分析·制造
FF-Studio1 小时前
【硬核数学】2. AI如何“学习”?微积分揭秘模型优化的奥秘《从零构建机器学习、深度学习到LLM的数学认知》
人工智能·深度学习·学习·机器学习·自然语言处理·微积分·高等数学
仙人掌_lz1 小时前
深入理解蒙特卡洛树搜索(MCTS):python从零实现
人工智能·python·算法·ai·强化学习·rl·mcts
追逐☞1 小时前
机器学习(14)——模型调参
人工智能·机器学习
犬余1 小时前
告别Spring AI!我的Java轻量AI框架实践(支持多模型接入|注解式MCP架构|附开源地址)
java·人工智能·spring
Ro小陌1 小时前
VisionPro自动化视觉开发实战:脚本编写、规范管理与高级调试
人工智能·microsoft·自动化
火龙谷2 小时前
【hadoop】Flume日志采集系统的安装部署
大数据·hadoop·flume
水花花花花花2 小时前
离散文本表示
人工智能·机器人
Thanks_ks2 小时前
Manus AI 突破多语言手写识别技术壁垒:创新架构、算法与应用解析
人工智能·迁移学习·应用场景·技术突破·多语言手写识别·manus ai·动态书写模型