技术栈
hive
隐于花海,等待花开
6 小时前
大数据
·
数据库
·
hive
窗口函数之排序函数详细解读及示例
窗口排序函数是 SQL 中用于对窗口内的数据进行排序并赋予序号的一类函数。本文详细解读 ROW_NUMBER()、RANK()、DENSE_RANK()、NTILE()、PERCENT_RANK() 和 CUME_DIST() 的用法、区别及实战示例。
隐于花海,等待花开
7 小时前
数据仓库
·
hive
·
hadoop
Hive 正则函数详解与示例
目录Hive 提供了基于 Java 正则表达式 的内置函数,用于处理字符串的匹配、提取、替换和计数。这些函数在数据清洗、日志解析、格式校验、敏感信息脱敏等场景中非常实用。
隐于花海,等待花开
7 小时前
hive
·
hadoop
·
面试
Hive专题:数据开发面试高频题(TopN、留存、连续登录等)
本文精选 Hive SQL 面试中最高频的 8 类题型,每道题提供 业务场景、核心思路、完整 SQL 示例 及 关键点解析。所有代码均基于 Hive 窗口函数、日期函数、条件聚合等特性编写,可直接运行。
Hadoop_Liang
1 天前
数据仓库
·
hive
·
hadoop
Hive的ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY对比及案例实践
目录1. 概述2. 详细说明2.1 ORDER BY(全局排序)2.2 SORT BY(局部排序)2.3 DISTRIBUTE BY(数据分发)
杭州杭州杭州
2 天前
hive
数仓实验1
(1) 在线安装MySQL 使用root用户登录hadoop01节点,执行以下命令:(2) 启动MySQL服务
杭州杭州杭州
2 天前
hive
数仓实验2
在开始前,请确保:编辑 $HIVE_HOME/conf/hive-site.xml,在 <configuration> 内添加以下内容:
杭州杭州杭州
2 天前
hive
数仓实验3
验证数据是否已加载在Hive CLI中执行以下命令确认数据存在:在你的HiveJDBCExample.java中添加新的方法来执行窗口函数查询。以下是完整的增强版代码:
隐于花海,等待花开
3 天前
数据仓库
·
hive
·
hadoop
HIVE日期函数大全
Hive 日期函数详解目录及详细说明,按功能分类并编号,方便查阅。
隐于花海,等待花开
4 天前
hive
FIND_IN_SET 与 LIKE 函数:使用场景及性能对比
下面通过具体的 SQL 示例和性能分析来说明两者的区别。场景:查询培训课程中包含完整且独立的 'course3' 的员工。
夕除
4 天前
数据仓库
·
hive
·
hadoop
javaweb--04
xmlscope=provided 表示该依赖由 Tomcat 容器提供,打包时不打入 war 包。java
虚幻如影
6 天前
数据仓库
·
hive
·
hadoop
Hive 中“STRING类型无需显式指定长度
在 Hive 中,“字段没有长度”通常指的是部分数据类型(尤其是字符串类型)在定义时无需显式指定长度限制,这与传统关系型数据库(如 MySQL、Oracle)的行为不同。以下是具体解释:
橘子编程
12 天前
大数据
·
hive
·
hadoop
Hive大数据实战指南:从入门到精通
版本参考:Apache Hive 4.x / 3.1.x(当前主流生产版本) 官方网站:https://hive.apache.org/ 官方文档:https://cwiki.apache.org/confluence/display/Hive/Home
dovens
12 天前
数据库
·
hive
·
spring boot
Spring Boot 从 2.7.x 升级到 3.3注意事项
将 Spring Boot 从 2.7.x 升级到 3.3 是一个重要的迁移过程,特别是因为 Spring Boot 3.x 系列基于 Jakarta EE 9,而不再使用 Java EE。此版本升级伴随着许多重大变化,以下是你在升级过程中需要注意的关键事项:
橘子编程
12 天前
大数据
·
hive
·
hadoop
·
apache
Apache Hadoop知识全解析
版本参考:Apache Hadoop 3.4.x(当前最新稳定版) 官方网站:https://hadoop.apache.org/ 文档整理时间:2026 年 4 月
Joy T
14 天前
大数据
·
数据仓库
·
hive
·
hadoop
·
架构
【大数据】离线数仓核心组件:Hive 架构解析与进阶操作指南
Hive 是基于 Hadoop 的数据仓库工具,主要用于解决海量结构化日志的数据统计问题。它提供了一套类 SQL 的查询语言 HiveQL,通过将 SQL 语句转换为运行在 Hadoop 集群上的 MapReduce 或 Spark 任务,大幅降低了大数据分析的工程门槛。
jasnet_u
14 天前
hive
·
hadoop
在Hadoop3.3.6上搭建Hive3.1.2
Apache Hive是一款建立在Hadoop上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似于SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop上大型数据集。 Hive的核心是将HQL转换为MapReduct程序,然后将程序提交到Hadoop集群执行。 Hive是有Fackbook实现并开源
二进制_博客
15 天前
数据库
·
hive
·
mysql
使用Datax批量将mysql数据导入hive
试想一个场景,将mysql中的jrxd 数据库中的所有表导入到hive中的finance数据库中在hive中创建一个数据库: create database finance;
talen_hx296
15 天前
大数据
·
hive
·
笔记
·
学习
·
spark
《零基础入门Spark》学习笔记 Day 10
Hive与Spark联合Hive与Spark组合中,Hive擅长元数据管理,Spark专长是高效的分布式计算,两者集成方式有两种:从Spark角度出发,Spark with Hive,从Hive出发即是Hive on Spark。
二进制_博客
15 天前
大数据
·
hive
·
spark
Spark On Hive 系统整合
Hive on Spark:Hive 为主,Spark 为辅。你用 Hive CLI/Beeline 写 HQL,Hive 解析优化,最后交给 Spark 跑任务。
蓝眸少年CY
20 天前
数据仓库
·
hive
·
hadoop
Hive - 函数、压缩与优化
目录一、函数1、常用函数(1)系统内置函数(2)常用内置函数1)nvl()函数2)case使用3)concat()函数