技术栈
apache hive
武子康
14 小时前
大数据
·
后端
·
apache hive
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
执行结果如下图(之前这里打错名称了,多打了字母m,大家根据实际情况修改)执行结果如下图:执行结果如下图所示:
武子康
2 天前
大数据
·
后端
·
apache hive
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
数据采集 => ODS => DWD => DWS => ADS => MySQL 活跃会员、新增会员、会员留存
武子康
18 天前
大数据
·
后端
·
apache hive
大数据-233 离线数仓 留存率怎么做:DWS 明细建模 + ADS 聚合落表(Hive/脚本实战)
将原始数据(ODS层)按照一定的逻辑模型进行整合、清洗、加工,形成标准化的数据结构。 支持对数据的多维度、多粒度分析。
智海观潮
3 个月前
apache hive
Hive高阶分析函数GROUPINGSETS,CUBE, ROLLUP, collect_set, sort_array, parse_url
更多干货抢先看:大数据干货合集示例:实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。
河藕Hou
4 个月前
apache hive
Hive - 自定义函数的开发和使用
Hive自定义函数(UDF)允许用户扩展HiveQL的功能,处理内置函数无法满足需求的场景,Hive支持三种类型的UDF:
智海观潮
4 个月前
大数据
·
hadoop
·
apache hive
Hive的架构设计和建表语义
更多干货抢先看:大数据干货合集Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设。
有数的编程笔记
6 个月前
spark
·
apache hive
Hive/Spark窗口函数
一个完整的窗口函数包含3部分窗口支持的函数注意:窗口框架定义了对于当前行,其窗口的具体范围有多大。窗口框架主要结构为:
jumin1806
6 个月前
python
·
apache hive
python采用jdbc连接kerberos认证的hive
最近在开发中遇到了一个场景,公司需要连接kerberos认证的Hive,正常的情况下直接用pyhive就可以了,网上可以找到许多相关的解决方案,但是我们在使用中发现了一个问题,pyhive使用的是非开源的,在查询数据时容易出现bug,且需要很长时间才能够修复,为了规避这个问题,我们采用python jdbc连接的方式来规避这个问题;
都叫我大帅哥
7 个月前
java
·
大数据
·
apache hive
数仓分层那些事:从菜鸟到架构师的终极指南
当产品经理第101次要求你"快速出个新报表"时,你是否在SQL地狱中挣扎?当老板突然要看"近三年用户复购行为趋势"时,你是否在几十张表中迷路?欢迎来到数据仓库分层的世界——这里没有银弹,但有清晰的路线图!
jzy3711
7 个月前
hadoop
·
apache hive
Hive SQL溯源秘籍:基于YARN Timeline的SQL执行全链路追踪
在大数据生态中,精准追踪Hive SQL的执行足迹是运维与优化的核心挑战。本文提出一套基于 YARN Timeline Service 的端到端解决方案,通过打通 Hive→Tez→YARN 全链路监控体系,实现: 1️⃣ 一键关联:从YARN Application ID直接溯源原始SQL文本 2️⃣ 跨层穿透:通过HIVE_QUERY_ID和TEZ_DAG_ID实现Hive逻辑计划与Tez物理执行的联动分析 3️⃣ 安全治理:适配Kerberos/Simple认证场景,解决ACL权限管控痛点 4️⃣
jzy3711
7 个月前
linux
·
hadoop
·
apache hive
国产化适配鲲鹏arm环境:hive on tez 单节点部署实践总结
本文详细指导如何在已安装Java的鲲鹏服务器环境下,从下载Hadoop开始,依次配置环境变量、YARN和HDFS设置,然后安装并配置Hive数据库和tez单机版,最后验证服务运行。涉及关键步骤如配置文件和启动服务。
jzy3711
7 个月前
apache hive
国产化适配鲲鹏arm环境:hive on tez 单节点部署实践问题总结
本文详细指导如何在已安装Java的鲲鹏服务器环境下,从下载Hadoop开始,依次配置环境变量、YARN和HDFS设置,然后安装并配置Hive数据库和tez单机版,最后验证服务运行。遇到的问题及解决方法。
武子康
8 个月前
大数据
·
后端
·
apache hive
大数据-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog
目前2025年06月16日更新到: AI炼丹日志-29 - 字节跳动 DeerFlow 深度研究框架 私有部署 测试上手 架构研究,持续打造实用AI工具指南!📐🤖
武子康
8 个月前
大数据
·
后端
·
apache hive
大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询
目前2025年06月16日更新到: AI炼丹日志-29 - 字节跳动 DeerFlow 深度研究框架 私有部署 测试上手 架构研究,持续打造实用AI工具指南!📐🤖
jzy3711
1 年前
大数据
·
apache hive
Hive疑难杂症全攻克:从分隔符配置到权限避坑实战指南
在Hive数据处理中,你是否常被多字符分隔符解析不兼容、临时UDF权限报错、版本差异引发的诡异问题搞得焦头烂额?无论是初学小白还是资深工程师,面对FIELDS TERMINATED BY '||'的字段错乱,或是Unable to fetch table的元数据异常,都可能陷入调试深渊。本文深度剖析Hive高频痛点,涵盖多版本分隔符配置技巧、权限元数据异常避坑指南、正则表达式性能优化,以及hive to mysql mysql load问题,直击问题根源,提供从“报错红屏”到“丝滑运行”的一站式解决路径。
齐朋
1 年前
大数据
·
apache hive
Hive架构原理解析:从数据存储到SQL执行的全流程
DannyIdea
1 年前
大数据
·
apache hive
Hive的实践记录
之前的文章中介绍了关于Hive的环境安装内容,这一节主要是记录一些关于Hive的实操记录。下边我将通过一个简单的学生-老师-课程-得分的案例进行讲解,关于HQL的简单实践。Hive实践的sql其实大部分语法可以从MySQL进行横向迁移过来,所以入门难度整体较低。这里主要是一些简单的SQL梳理。
青云交
1 年前
数据库
·
内存管理
·
apache hive
·
数据集成
·
大数据处理
·
datafusion
·
查询处理
·
powercenter
大数据新视界 --大数据大厂之 DataFusion:超越传统的大数据集成与处理创新工具
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。💖💖💖
有数的编程笔记
2 年前
spark
·
apache hive
HiveQL和SparkSQL中的正则
hive中的正则查找属于关系操作符,rlike和regexp二者用法完全相同。spark中正则查找即可以写成关系操作符又可以写成函数形式,在3.2.0之前只有rlike,并且3.2.0之前的文档中写法是str rlike regexp,从3.2.0开始的文档中写成了rlike(str, regexp)形式,但是从实际测试情况看3.2.0之前的版本中也可以写成rlike(str, regexp)形式。