apache hive

有数的编程笔记2 个月前
spark·apache hive
HiveQL和SparkSQL中的正则hive中的正则查找属于关系操作符,rlike和regexp二者用法完全相同。spark中正则查找即可以写成关系操作符又可以写成函数形式,在3.2.0之前只有rlike,并且3.2.0之前的文档中写法是str rlike regexp,从3.2.0开始的文档中写成了rlike(str, regexp)形式,但是从实际测试情况看3.2.0之前的版本中也可以写成rlike(str, regexp)形式。
vivo互联网技术5 个月前
数据分析·apache hive
用户行为分析模型实践(四)—— 留存分析模型作者:vivo 互联网大数据团队- Wu Yonggang、Li Xiong本文是vivo互联网大数据团队《用户行为分析模型实践》系列文章第4篇 -留存分析模型。
墨尘r5 个月前
apache hive
Hive 动态分区异常org.apache.hadoop.hive.ql.metadata.HiveException最近在做一个需求,需求本身并不复杂只是需要添加字段,但是自己大意触发了Hive动态分区异常报错,这里记录一下过程。
有数的编程笔记5 个月前
apache hive
HiveSQL如何生成连续日期剖析情景假设: 有一结果表,表中有start_dt和end_dt两个字段,,想要根据开始和结束时间生成连续日期的多条数据,应该怎么做?直接上结果sql。(为了便于演示和测试这里通过SELECT '2024-03-01' AS start_dt,'2024-03-06' AS end_dt模拟一个结果表数据)
LightGao6 个月前
apache hive
深入数仓离线数据同步:问题分析与优化措施在数据仓库领域,离线数仓和实时数仓是常见的两种架构类型。离线数仓一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到数据仓库中。这种方式适用于对数据实时性要求不高,更侧重于历史数据分析和报告生成的场景。
卷土的土7 个月前
大数据·数据库·apache hive
数据流动新时代,Hive 的实时同步技术探索最近对于全周期数据流动进行了初步探索,打通了Hive 目标端的实时同步,为实时数仓的构建提供了支持,这篇文章简要做下分享。
冷月半明9 个月前
大数据·python·apache hive
pyhive入门介绍和实例分析(探索票价与景点评分之间是否存在相关性)PyHive 是一组 Python DB-API 和 SQLAlchemy 接口,可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台,使得数据分析师和工程师可以更方便地进行数据处理和分析。
冷月半明9 个月前
大数据·apache hive
使用Apache Hive进行大数据分析的关键配置详解Apache Hive是一个在Hadoop上构建的数据仓库工具,它允许用户通过类似SQL的语言(HiveQL)进行数据查询和分析。在使用Hive进行大数据分析之前,需要配置一些重要的参数以确保系统正常运行并满足特定需求。本文将重点介绍Apache Hive的关键配置属性,涵盖了元数据存储、临时目录、日志设置以及HiveServer2连接等方面。
冷月半明9 个月前
大数据·后端·apache hive
解决 Hive 外部表分隔符问题的实用指南在使用 Hive 外部表时,分隔符设置不当可能导致数据导入和查询过程中的问题。本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤。
泊浮目10 个月前
spark·visual studio code·apache hive
梅开二度:我在VS Code上又写了一个Hive&Spark SQL的插件在几个月前,我在公司内部推广了我写的FlinkSQL插件,收到了较好的反馈。具体介绍可以见我之前写的博客——《想在DataGrip里写SQL般丝滑的写FlinkSQL?安装它就完事儿了》。
DaveCui1 年前
hadoop·hbase·apache hive
Hive与Hbase,傻傻分不清同期文章:HDFS知识体系(知其然,知其所以然) - 掘金 (juejin.cn)YARN:分布式资源管理框架 - 掘金 (juejin.cn)
DaveCui1 年前
hadoop·apache hive
一文了解Hive的前世今生根据官网: Apache Hive注:本文加入了自己的理解,与官网有部分不一致。且本人也只是在学习的路上,不是布道者,可先参阅官网,对照解读。
openEuler1 年前
大数据·linux·apache hive
【创新项目探索】大数据服务omnidata-hive-connector介绍omnidata-hive-connector介绍omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务,从而实现近数据计算,减少网络带宽,提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。
DaveCui1 年前
linux·apache hive
Hive 在linux部署全流程Hive是数据仓库绕不开的一个组件,这里记录下自己部署到linux所需要的命令和需要注意的问题。当然因为这是很久之前的笔记了,很多细节的操作可能没记录下。仅供参考。
aoke1 年前
大数据·apache hive
Hive存储优化官网参考链接
CodeDevMaster1 年前
大数据·spark·apache hive
从源代码编译构建Hive3.1.3使用Hive官方提供的预编译安装包是最常见和推荐的方式来使用Hive,适用于大多数用户。这些预编译的安装包经过了测试和验证,在许多不同的环境中都能正常运行。