apache hive

IvanCodes8 天前
大数据·apache hive
二、Hive安装部署详细过程Hive 是大数据离线数仓的核心组件。我们这次将系统讲解 Hive 的安装、配置、Metastore 初始化及 DataGrip 连接实战,帮助你快速完成 Hive 环境搭建。
HenbCode10 天前
sql·apache hive
# Hive 性能优化实战大数据开发核心技能:执行计划分析、SQL 优化、Join 优化、聚合优化、参数调优、数据倾斜处理、生产环境案例,查询速度提升 10 倍 +
这是剃刀党的命令11 天前
apache hive
Hive 分区 是如何在元数据(MySQL)存储的?1.Hive端建表与添加分区查询结果结论1.Hive端建表与添加分区2.MySQL端查询元数据结论1.存储结构:多级分区在元数据库中依然存储为单层字符串,而非嵌套结构。
武子康12 天前
大数据·后端·apache hive
大数据-255 离线数仓 - Apache Atlas 数据血缘与元数据管理实战指南元数据(MetaData)狭义的解释是用来描述数据的数据。广义来看,除了业务逻辑直接读写处理的那些业务数据,所有其他用来维持整个系统运转所需的信息、数据都可以叫做元数据,如数据库中表的Schema信息,任务的血缘关系,用户和脚本、任务的权限映射关系信息等。
武子康13 天前
大数据·后端·apache hive
大数据-254 离线数仓 - Airflow 任务调度与工作流管理实战Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
武子康18 天前
大数据·后端·apache hive
大数据-253 离线数仓 - Airflow 入门与任务调度实战:DAG、Operator、Executor 部署排错指南Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
数据的田狗20 天前
apache hive
spark+hive-分布式-大数据项目篇 2——Hive3.1.3安装配置Ubuntu20.04, JDK8 Hadoop3.3.4, Hive3.1.3, MYSQL8.0.42 Spark3.4.4
武子康21 天前
大数据·后端·apache hive
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查Linux系统是由cron(crond)系统服务来控制的,Linux系统上原本那就有非常多的计划性工作,因此这个系统服务是默认启动的。 Linux系统也提供了Linux用户控制计划任务的命令:crontab命令
武子康22 天前
大数据·后端·apache hive
大数据-251 离线数仓 - Airflow 安装部署避坑指南:1.10.11 与 2.x 命令差异、MySQL 配置与错误排查Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
武子康23 天前
大数据·后端·apache hive
大数据-250 离线数仓 - 电商分析 Hive 数仓 ADS 层订单分析实战:全国/大区/城市分类汇总与 Airflow 调度需求:计算当天用到的表:编写一个脚本加载数据1笔订单,有多个商品,多个商品有不同的分类,这会导致一笔订单有多个分类,它们是分别统计的:
武子康24 天前
大数据·后端·apache hive
大数据-249 离线数仓 - 电商分析 Hive 数仓实战:订单拉链表到 DWS 宽表设计与加载脚本详解要处理的表有两张:订单表、订单产品表:订单状态:订单从创建到最终完成,是有时间限制的,业务上也不允许订单一个月之后,订单状态仍然在发生变化。
武子康25 天前
大数据·后端·apache hive
大数据-248 离线数仓 - 电商分析 Hive 离线数仓维表设计实战:快照表、拉链表与 DIM 增量加载全流程首先要确定哪些是事实表、维表。用什么方式处理维表,每日快照、拉链表?数据库范式是设计关系型数据库结构时的一套指导原则,目的是为了减少数据冗余、确保数据依赖性合理,并提高数据一致性。然而,遵循范式也有一些潜在的缺点:
武子康1 个月前
大数据·后端·apache hive
大数据-247 离线数仓 - 电商分析 Hive 拉链表实战:订单历史状态增量刷新、闭链逻辑与错误排查周期性事实表记录的是定期发生的业务事件或度量数据,例如每天、每月或每季度的数据。其设计目的在于帮助用户快速查询和分析这些周期性数据的趋势和变化。
数据的田狗1 个月前
apache hive
Hive 代理用户(Impersonation)权限异常报错-这是 HiveServer2 的 hive.server2.enable.doAs 配置导致的:
数据的田狗1 个月前
apache hive
Hive hiveserver2 监听端口10000异常 启动失败start-all.sh启动hadoop两个服务hive --service metastore & hive --service hiveserver2 & 启动hive两个服务
武子康1 个月前
大数据·后端·apache hive
大数据-246 离线数仓 - 电商分析 Hive 拉链表实战:初始化、每日增量更新、回滚脚本与错误排查userinfo(分区表) => userid、mobile、regdate => 每日变更的数据(修改的+新增的)/ 历史数据(第一天) userhis(拉链表)=> 多个两个字段 start_date / end_date
武子康1 个月前
大数据·后端·apache hive
大数据-245 离线数仓 - 电商分析 Hive 拉链表入门实战:缓慢变化维 SCD 类型、建表加载与常见错误速查缓慢变化维(SCD,Slowly Changing Dimensions),在现实世界中,维度的属性随着时间的流失发生缓慢的变化(缓慢是相对事实表而言,事实表数据变化的速度比维度表快)。 处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,简称SCD问题,处理缓慢变化维的方法有以下几种常见方式: