可以直接从master节点访问数据
1. 访问数据
-
登录上master节点后切换到hadoop账号
su hadoop
sh2. 访问hive 直接输入hive可访问 ```sh hive
2. 常见的命令
-
查看数据
show databases;

-
切换数据库
use saylo;

-
查看表
show tables;

-
查看表结构
desc t_big_prd_compress2_extract;

-
查询分区
show partitions test_t_rec_scene_stats_10d;

-
查询内容
select * from test_t_rec_scene_stats_10d limit 3;

-
查看建表语句
show create table test_t_rec_scene_stats_10d;

-
删除表
drop table if exists 表名;
-
清空表
truncate table 表名;
4. 任务
所有的spark任务都是用crontab配置的,使用 crontab -l -u username 查看任务
crontab -l -u root
crontab -e
5. 告警
告警面板;离线任务中每次执行完成,会发送一条 cls 日志;如果超过预定时长没有检测到日志则告警
6. 定时删除hive中数据
第一种方法: 设置表生命周期标识
alter table ${table_name} set tblproperties ('TABLE_LIFECYCLE'='365d');
第二种方法:定时任务删除:
shell
END_DATE=$(date -d "$DEL_DATE +1 day" +"%Y-%m-%d")
HIVE_SQL="
ALTER TABLE $DATABASE.$TABLE
DROP PARTITION (datetime < '$END_DATE 00:00:00');
"
echo "【$(date '+%Y-%m-%d %H:%M:%S')】 正在删除 $DATABASE.$TABLE 中早于 $DEL_DATE 的分区..."
echo "【$(date '+%Y-%m-%d %H:%M:%S')】 执行 SQL: $HIVE_SQL"