技术栈
apache hive
都叫我大帅哥
6 天前
java
·
大数据
·
apache hive
数仓分层那些事:从菜鸟到架构师的终极指南
当产品经理第101次要求你"快速出个新报表"时,你是否在SQL地狱中挣扎?当老板突然要看"近三年用户复购行为趋势"时,你是否在几十张表中迷路?欢迎来到数据仓库分层的世界——这里没有银弹,但有清晰的路线图!
jzy3711
14 天前
hadoop
·
apache hive
Hive SQL溯源秘籍:基于YARN Timeline的SQL执行全链路追踪
在大数据生态中,精准追踪Hive SQL的执行足迹是运维与优化的核心挑战。本文提出一套基于 YARN Timeline Service 的端到端解决方案,通过打通 Hive→Tez→YARN 全链路监控体系,实现: 1️⃣ 一键关联:从YARN Application ID直接溯源原始SQL文本 2️⃣ 跨层穿透:通过HIVE_QUERY_ID和TEZ_DAG_ID实现Hive逻辑计划与Tez物理执行的联动分析 3️⃣ 安全治理:适配Kerberos/Simple认证场景,解决ACL权限管控痛点 4️⃣
jzy3711
17 天前
linux
·
hadoop
·
apache hive
国产化适配鲲鹏arm环境:hive on tez 单节点部署实践总结
本文详细指导如何在已安装Java的鲲鹏服务器环境下,从下载Hadoop开始,依次配置环境变量、YARN和HDFS设置,然后安装并配置Hive数据库和tez单机版,最后验证服务运行。涉及关键步骤如配置文件和启动服务。
jzy3711
17 天前
apache hive
国产化适配鲲鹏arm环境:hive on tez 单节点部署实践问题总结
本文详细指导如何在已安装Java的鲲鹏服务器环境下,从下载Hadoop开始,依次配置环境变量、YARN和HDFS设置,然后安装并配置Hive数据库和tez单机版,最后验证服务运行。遇到的问题及解决方法。
武子康
2 个月前
大数据
·
后端
·
apache hive
大数据-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog
目前2025年06月16日更新到: AI炼丹日志-29 - 字节跳动 DeerFlow 深度研究框架 私有部署 测试上手 架构研究,持续打造实用AI工具指南!📐🤖
武子康
2 个月前
大数据
·
后端
·
apache hive
大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询
目前2025年06月16日更新到: AI炼丹日志-29 - 字节跳动 DeerFlow 深度研究框架 私有部署 测试上手 架构研究,持续打造实用AI工具指南!📐🤖
jzy3711
4 个月前
大数据
·
apache hive
Hive疑难杂症全攻克:从分隔符配置到权限避坑实战指南
在Hive数据处理中,你是否常被多字符分隔符解析不兼容、临时UDF权限报错、版本差异引发的诡异问题搞得焦头烂额?无论是初学小白还是资深工程师,面对FIELDS TERMINATED BY '||'的字段错乱,或是Unable to fetch table的元数据异常,都可能陷入调试深渊。本文深度剖析Hive高频痛点,涵盖多版本分隔符配置技巧、权限元数据异常避坑指南、正则表达式性能优化,以及hive to mysql mysql load问题,直击问题根源,提供从“报错红屏”到“丝滑运行”的一站式解决路径。
齐朋
5 个月前
大数据
·
apache hive
Hive架构原理解析:从数据存储到SQL执行的全流程
DannyIdea
10 个月前
大数据
·
apache hive
Hive的实践记录
之前的文章中介绍了关于Hive的环境安装内容,这一节主要是记录一些关于Hive的实操记录。下边我将通过一个简单的学生-老师-课程-得分的案例进行讲解,关于HQL的简单实践。Hive实践的sql其实大部分语法可以从MySQL进行横向迁移过来,所以入门难度整体较低。这里主要是一些简单的SQL梳理。
青云交
10 个月前
数据库
·
内存管理
·
apache hive
·
数据集成
·
大数据处理
·
datafusion
·
查询处理
·
powercenter
大数据新视界 --大数据大厂之 DataFusion:超越传统的大数据集成与处理创新工具
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实用的内容知识,还可以毫无拘束地畅所欲言,尽情分享自己独特的见解。我真诚地期待着你们的到来,愿我们能在这片小小的天地里共同成长,共同进步。💖💖💖
有数的编程笔记
1 年前
spark
·
apache hive
HiveQL和SparkSQL中的正则
hive中的正则查找属于关系操作符,rlike和regexp二者用法完全相同。spark中正则查找即可以写成关系操作符又可以写成函数形式,在3.2.0之前只有rlike,并且3.2.0之前的文档中写法是str rlike regexp,从3.2.0开始的文档中写成了rlike(str, regexp)形式,但是从实际测试情况看3.2.0之前的版本中也可以写成rlike(str, regexp)形式。
vivo互联网技术
1 年前
数据分析
·
apache hive
用户行为分析模型实践(四)—— 留存分析模型
作者:vivo 互联网大数据团队- Wu Yonggang、Li Xiong本文是vivo互联网大数据团队《用户行为分析模型实践》系列文章第4篇 -留存分析模型。
墨尘r
1 年前
apache hive
Hive 动态分区异常org.apache.hadoop.hive.ql.metadata.HiveException
最近在做一个需求,需求本身并不复杂只是需要添加字段,但是自己大意触发了Hive动态分区异常报错,这里记录一下过程。
有数的编程笔记
1 年前
apache hive
HiveSQL如何生成连续日期剖析
情景假设: 有一结果表,表中有start_dt和end_dt两个字段,,想要根据开始和结束时间生成连续日期的多条数据,应该怎么做?直接上结果sql。(为了便于演示和测试这里通过SELECT '2024-03-01' AS start_dt,'2024-03-06' AS end_dt模拟一个结果表数据)
LightGao
1 年前
apache hive
深入数仓离线数据同步:问题分析与优化措施
在数据仓库领域,离线数仓和实时数仓是常见的两种架构类型。离线数仓一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到数据仓库中。这种方式适用于对数据实时性要求不高,更侧重于历史数据分析和报告生成的场景。
卷土的土
1 年前
大数据
·
数据库
·
apache hive
数据流动新时代,Hive 的实时同步技术探索
最近对于全周期数据流动进行了初步探索,打通了Hive 目标端的实时同步,为实时数仓的构建提供了支持,这篇文章简要做下分享。
冷月半明
2 年前
大数据
·
python
·
apache hive
pyhive入门介绍和实例分析(探索票价与景点评分之间是否存在相关性)
PyHive 是一组 Python DB-API 和 SQLAlchemy 接口,可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台,使得数据分析师和工程师可以更方便地进行数据处理和分析。
冷月半明
2 年前
大数据
·
apache hive
使用Apache Hive进行大数据分析的关键配置详解
Apache Hive是一个在Hadoop上构建的数据仓库工具,它允许用户通过类似SQL的语言(HiveQL)进行数据查询和分析。在使用Hive进行大数据分析之前,需要配置一些重要的参数以确保系统正常运行并满足特定需求。本文将重点介绍Apache Hive的关键配置属性,涵盖了元数据存储、临时目录、日志设置以及HiveServer2连接等方面。
冷月半明
2 年前
大数据
·
后端
·
apache hive
解决 Hive 外部表分隔符问题的实用指南
在使用 Hive 外部表时,分隔符设置不当可能导致数据导入和查询过程中的问题。本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤。