hive

隐于花海,等待花开6 小时前
大数据·数据库·hive
窗口函数之排序函数详细解读及示例窗口排序函数是 SQL 中用于对窗口内的数据进行排序并赋予序号的一类函数。本文详细解读 ROW_NUMBER()、RANK()、DENSE_RANK()、NTILE()、PERCENT_RANK() 和 CUME_DIST() 的用法、区别及实战示例。
隐于花海,等待花开7 小时前
数据仓库·hive·hadoop
Hive 正则函数详解与示例目录Hive 提供了基于 Java 正则表达式 的内置函数,用于处理字符串的匹配、提取、替换和计数。这些函数在数据清洗、日志解析、格式校验、敏感信息脱敏等场景中非常实用。
隐于花海,等待花开7 小时前
hive·hadoop·面试
Hive专题:数据开发面试高频题(TopN、留存、连续登录等)本文精选 Hive SQL 面试中最高频的 8 类题型,每道题提供 业务场景、核心思路、完整 SQL 示例 及 关键点解析。所有代码均基于 Hive 窗口函数、日期函数、条件聚合等特性编写,可直接运行。
Hadoop_Liang1 天前
数据仓库·hive·hadoop
Hive的ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY对比及案例实践目录1. 概述2. 详细说明2.1 ORDER BY(全局排序)2.2 SORT BY(局部排序)2.3 DISTRIBUTE BY(数据分发)
杭州杭州杭州2 天前
hive
数仓实验1(1) 在线安装MySQL 使用root用户登录hadoop01节点,执行以下命令:(2) 启动MySQL服务
杭州杭州杭州2 天前
hive
数仓实验2在开始前,请确保:编辑 $HIVE_HOME/conf/hive-site.xml,在 <configuration> 内添加以下内容:
杭州杭州杭州2 天前
hive
数仓实验3验证数据是否已加载在Hive CLI中执行以下命令确认数据存在:在你的HiveJDBCExample.java中添加新的方法来执行窗口函数查询。以下是完整的增强版代码:
隐于花海,等待花开3 天前
数据仓库·hive·hadoop
HIVE日期函数大全Hive 日期函数详解目录及详细说明,按功能分类并编号,方便查阅。
隐于花海,等待花开4 天前
hive
FIND_IN_SET 与 LIKE 函数:使用场景及性能对比下面通过具体的 SQL 示例和性能分析来说明两者的区别。场景:查询培训课程中包含完整且独立的 'course3' 的员工。
夕除4 天前
数据仓库·hive·hadoop
javaweb--04xmlscope=provided 表示该依赖由 Tomcat 容器提供,打包时不打入 war 包。java
虚幻如影6 天前
数据仓库·hive·hadoop
Hive 中“STRING类型无需显式指定长度在 Hive 中,“字段没有长度”通常指的是部分数据类型(尤其是字符串类型)在定义时无需显式指定长度限制,这与传统关系型数据库(如 MySQL、Oracle)的行为不同。以下是具体解释:
橘子编程12 天前
大数据·hive·hadoop
Hive大数据实战指南:从入门到精通版本参考:Apache Hive 4.x / 3.1.x(当前主流生产版本) 官方网站:https://hive.apache.org/ 官方文档:https://cwiki.apache.org/confluence/display/Hive/Home
dovens12 天前
数据库·hive·spring boot
Spring Boot 从 2.7.x 升级到 3.3注意事项将 Spring Boot 从 2.7.x 升级到 3.3 是一个重要的迁移过程,特别是因为 Spring Boot 3.x 系列基于 Jakarta EE 9,而不再使用 Java EE。此版本升级伴随着许多重大变化,以下是你在升级过程中需要注意的关键事项:
橘子编程12 天前
大数据·hive·hadoop·apache
Apache Hadoop知识全解析版本参考:Apache Hadoop 3.4.x(当前最新稳定版) 官方网站:https://hadoop.apache.org/ 文档整理时间:2026 年 4 月
Joy T14 天前
大数据·数据仓库·hive·hadoop·架构
【大数据】离线数仓核心组件:Hive 架构解析与进阶操作指南Hive 是基于 Hadoop 的数据仓库工具,主要用于解决海量结构化日志的数据统计问题。它提供了一套类 SQL 的查询语言 HiveQL,通过将 SQL 语句转换为运行在 Hadoop 集群上的 MapReduce 或 Spark 任务,大幅降低了大数据分析的工程门槛。
jasnet_u14 天前
hive·hadoop
在Hadoop3.3.6上搭建Hive3.1.2Apache Hive是一款建立在Hadoop上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似于SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop上大型数据集。 Hive的核心是将HQL转换为MapReduct程序,然后将程序提交到Hadoop集群执行。 Hive是有Fackbook实现并开源
二进制_博客15 天前
数据库·hive·mysql
使用Datax批量将mysql数据导入hive试想一个场景,将mysql中的jrxd 数据库中的所有表导入到hive中的finance数据库中在hive中创建一个数据库: create database finance;
talen_hx29615 天前
大数据·hive·笔记·学习·spark
《零基础入门Spark》学习笔记 Day 10Hive与Spark联合Hive与Spark组合中,Hive擅长元数据管理,Spark专长是高效的分布式计算,两者集成方式有两种:从Spark角度出发,Spark with Hive,从Hive出发即是Hive on Spark。
二进制_博客15 天前
大数据·hive·spark
Spark On Hive 系统整合Hive on Spark:Hive 为主,Spark 为辅。你用 Hive CLI/Beeline 写 HQL,Hive 解析优化,最后交给 Spark 跑任务。
蓝眸少年CY20 天前
数据仓库·hive·hadoop
Hive - 函数、压缩与优化目录一、函数1、常用函数(1)系统内置函数(2)常用内置函数1)nvl()函数2)case使用3)concat()函数