hive

非极限码农1 小时前
数据仓库·hive·hadoop·etl
Hive数仓部署/分层/ETL脚本基础指南部署Hive数仓及分层基础指南部署和构建一个Hive数仓涉及多个步骤,包括设置Hadoop集群、配置Hive、设计数据仓库架构以及实现ETL(Extract, Transform, Load)过程。下面是一个详细的指南,帮助你完成这些步骤。
大数据狂人2 天前
大数据·starrocks·hive·数仓
深入剖析 StarRocks 与 Hive 的区别、使用场景及协同方案实践在现代数据分析与数仓建设中,Hive 与 StarRocks 是两种极具代表性的大数据组件。一个以批处理著称,一个则以高性能实时分析见长。本文将围绕两者的技术架构、核心特性、适用场景进行全面对比,并结合实践,剖析它们如何协同配合实现高效数据分析。
wzy06232 天前
hive·hadoop·impala·sparksql
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(二)目录二、Hive、SparkSQL、Impala 比较1. SparkSQL 简介2. Hive、SparkSQL、Impala 比较
随心............3 天前
数据仓库·hive
hive专题面试总结UDF(User-Defined Function)是 Hive 中允许用户扩展内置函数的机制,通过编写自定义代码实现特定的数据处理逻辑。与 SQL 内置函数(如 SUM、SUBSTRING)不同,UDF 可以实现更灵活、复杂的功能。
白日与明月7 天前
hive·hadoop·vscode
Hive-vscode-snippets为了提高写HiveSQL的体验,这里通过Qwen3Coder生成了一个vscode的snippets. 欢迎体验:
Sirius Wu7 天前
数据仓库·hive·hadoop
Hive的窗口函数Hive的窗口函数(Window Functions)是其SQL功能的核心亮点之一,用于在分组数据上执行计算,同时保留原始表的行数(不压缩分组)。窗口函数特别适用于排名分析、趋势计算、移动统计等复杂场景,是处理时间序列数据和多维分析的利器。
シ風箏7 天前
java·hive·mysql
Hive【安装 01】hive-3.1.2版本安装配置(含 mysql-connector-java-5.1.47.jar 网盘资源)我使用的安装文件是 apache-hive-3.1.2-bin.tar.gz ,以下内容均以此版本进行说明。
Sirius Wu8 天前
数据仓库·hive·hadoop·后端
一文说清楚HiveHive作为Apache Hadoop生态的核心数据仓库工具,其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。
Sirius Wu8 天前
hive·hadoop·list
一文说清楚Hive中常用的聚合函数[collect_list]collect_list(col)是Hive中常用的聚合函数,用于将分组内的某列值(col)收集到一个数组中。它的核心作用是将多行数据合并为单行的数组结构,常用于数据重组或复杂分析场景。以下是详细说明和示例:
sheep85219 天前
数据仓库·hive·hadoop
HIVE实战处理(二十四)留存用户数因为用户活跃日期和留存的日期无法对齐所以搞了2级分区(dt,static_day)1)首先获得计算日D、根据要出的次X日留存,推算出前面的DT ,整体从活跃表里根据这些日期生成临时活跃表tmp1 2)分别把计算DT和前X日的DT进行匹配,按相差的天数进行匹配,如果匹配一直分别得到对应的次X日留存标识。 3)需要使用1个新的字段存储留存指标的的日期,比如20250701号的留存keep1_num只能等20250702号过完才能计算,那对应也是7.1号算留存日期,是指在DT=20250702的留存时间。
码字的字节9 天前
hive·sql·ast·mapreduce·operator
深入解析Hive SQL转MapReduce的编译原理:从AST抽象语法树到Operator执行树作为大数据处理领域的基石,Hadoop生态系统采用分布式架构设计,其核心组件构成了一套完整的解决方案框架。HDFS(Hadoop Distributed File System)作为底层存储系统,采用主从架构设计,默认通过三副本机制确保数据可靠性,其机架感知功能能有效减少跨机架数据传输,显著降低网络I/O消耗。计算层由MapReduce引擎实现批处理能力,采用"分而治之"思想将任务分解为Map和Reduce两个阶段。资源管理层YARN(Yet Another Resource Negotiator)则通过
O执O11 天前
java·hive·hadoop·笔记·web
JavaWeb笔记四遇到这个问题:The server encountered an internal error that prevented it from fulfilling this request.
杨荧11 天前
大数据·前端·vue.js·hive·python·开源·旅游
基于大数据的旅游推荐系统 Python+Django+Hive+Vue.js本文项目编号 25001 ,文末自助获取源码 \color{red}{25001,文末自助获取源码} 25001,文末自助获取源码
撰卢12 天前
java·前端·hive·spring boot
Filter快速入门 Java web
BD_Marathon12 天前
hive·hadoop·servlet
Servlet快速入门Servlet是Java提供的一门动态web资源开发技术Servlet是JavaEE规范之一,其实就是一个接口,将来我们需要定义Servlet类实现Servlet接口,并由web服务器运行Servlet
ycllycll12 天前
hive·hadoop·sql
hive的sql优化思路-明白底层运行逻辑一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:
hie9889412 天前
hive·spring boot·servlet
springboot注册servlet在Spring Boot应用中,虽然Spring MVC已经提供了强大的功能来处理HTTP请求,但在某些情况下,我们可能仍需要直接注册和使用Servlet。本文将详细介绍如何在Spring Boot中注册Servlet。
AI扶我青云志13 天前
数据仓库·hive·hadoop
Hive数据仓库工具下面是对 Apache Hive 的全面介绍,适用于理解其原理、架构、使用场景和与其他大数据组件的协作关系。
szial14 天前
hive·hadoop
Hive 向量化执行引擎 Vectorized Execution 常见 NPE 报错分析及解决本文将以实际 Hive 查询中的 NullPointerException(NPE)为例,详细说明排查此类异常的具体流程、底层原理和修复方案,旨在帮助大数据工程师深入理解 Hive 向量化执行模式下的异常问题。
无级程序员14 天前
数据仓库·hive·hadoop
hive分区表临时加载日批数据文件源系统每日上传一个csv数据文件到数据中台指定目录,数据中台用hive表进行ETL工作。先建一个外部分区表: