apache hive

武子康10 小时前
大数据·后端·apache hive
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查Linux系统是由cron(crond)系统服务来控制的,Linux系统上原本那就有非常多的计划性工作,因此这个系统服务是默认启动的。 Linux系统也提供了Linux用户控制计划任务的命令:crontab命令
武子康1 天前
大数据·后端·apache hive
大数据-251 离线数仓 - Airflow 安装部署避坑指南:1.10.11 与 2.x 命令差异、MySQL 配置与错误排查Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
武子康3 天前
大数据·后端·apache hive
大数据-250 离线数仓 - 电商分析 Hive 数仓 ADS 层订单分析实战:全国/大区/城市分类汇总与 Airflow 调度需求:计算当天用到的表:编写一个脚本加载数据1笔订单,有多个商品,多个商品有不同的分类,这会导致一笔订单有多个分类,它们是分别统计的:
武子康4 天前
大数据·后端·apache hive
大数据-249 离线数仓 - 电商分析 Hive 数仓实战:订单拉链表到 DWS 宽表设计与加载脚本详解要处理的表有两张:订单表、订单产品表:订单状态:订单从创建到最终完成,是有时间限制的,业务上也不允许订单一个月之后,订单状态仍然在发生变化。
武子康5 天前
大数据·后端·apache hive
大数据-248 离线数仓 - 电商分析 Hive 离线数仓维表设计实战:快照表、拉链表与 DIM 增量加载全流程首先要确定哪些是事实表、维表。用什么方式处理维表,每日快照、拉链表?数据库范式是设计关系型数据库结构时的一套指导原则,目的是为了减少数据冗余、确保数据依赖性合理,并提高数据一致性。然而,遵循范式也有一些潜在的缺点:
武子康7 天前
大数据·后端·apache hive
大数据-247 离线数仓 - 电商分析 Hive 拉链表实战:订单历史状态增量刷新、闭链逻辑与错误排查周期性事实表记录的是定期发生的业务事件或度量数据,例如每天、每月或每季度的数据。其设计目的在于帮助用户快速查询和分析这些周期性数据的趋势和变化。
数据的田狗7 天前
apache hive
Hive 代理用户(Impersonation)权限异常报错-这是 HiveServer2 的 hive.server2.enable.doAs 配置导致的:
数据的田狗8 天前
apache hive
Hive hiveserver2 监听端口10000异常 启动失败start-all.sh启动hadoop两个服务hive --service metastore & hive --service hiveserver2 & 启动hive两个服务
武子康8 天前
大数据·后端·apache hive
大数据-246 离线数仓 - 电商分析 Hive 拉链表实战:初始化、每日增量更新、回滚脚本与错误排查userinfo(分区表) => userid、mobile、regdate => 每日变更的数据(修改的+新增的)/ 历史数据(第一天) userhis(拉链表)=> 多个两个字段 start_date / end_date
武子康9 天前
大数据·后端·apache hive
大数据-245 离线数仓 - 电商分析 Hive 拉链表入门实战:缓慢变化维 SCD 类型、建表加载与常见错误速查缓慢变化维(SCD,Slowly Changing Dimensions),在现实世界中,维度的属性随着时间的流失发生缓慢的变化(缓慢是相对事实表而言,事实表数据变化的速度比维度表快)。 处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,简称SCD问题,处理缓慢变化维的方法有以下几种常见方式:
武子康10 天前
大数据·后端·apache hive
大数据-244 离线数仓 - Hive ODS 层建表与分区加载实战(DataX→HDFS→Hive)在大数据体系中,ODS(Operational Data Store),即操作数据存储,是数据仓库中的重要组成部分,起着承上启下的作用。ODS主要是用于存储原始的、经过轻度处理的数据,通常直接从业务系统(如ERP、CRM等)中抽取而来。
武子康11 天前
大数据·后端·apache hive
大数据-243 离线数仓 - 实战电商核心交易增量导入(DataX - HDFS - Hive 分区电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。 选取的指标包括:订单数、商品数、支付金额,对这些指标按销售区域、商品类型分析。
武子康14 天前
大数据·后端·apache hive
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS已经确定的事情:DataX、导出7张表的数据。 MySQL导出:全量导出、增量导出(导出前一天的数据)
武子康16 天前
大数据·后端·apache hive
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL执行结果如下图所示: 查看Hive中的数据:运行结果如下图所示: 继续导入其他数据:最终的Hive的数据量如下所示:
武子康17 天前
大数据·后端·apache hive
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载Flume 是一个分布式、可靠且可扩展的系统,用于收集、聚合和传输大量日志数据。它常用于从各种数据源(例如日志文件、应用程序、系统等)收集数据并将其传输到 Hadoop 生态系统(例如 HDFS、Hive、HBase 等)进行进一步处理。Flume 主要由多个组件构成,其中 Flume Agent 是核心的执行单元。
武子康18 天前
大数据·后端·apache hive
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑DWD => DWS(不需要) => ADS,在某个分析中不是所有的层都会用到。执行结果如下图所示:写入的内容如下所示:
武子康19 天前
大数据·后端·apache hive
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地基本介绍在上节已经完成,本节我们继续处理这块业务。事件日志数据样例:采集的信息包括:在广告的字段中,收集到的数据有:
武子康21 天前
大数据·后端·apache hive
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程执行结果如下图(之前这里打错名称了,多打了字母m,大家根据实际情况修改)执行结果如下图:执行结果如下图所示:
武子康22 天前
大数据·后端·apache hive
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路数据采集 => ODS => DWD => DWS => ADS => MySQL 活跃会员、新增会员、会员留存