hive

Nefu_lyh9 小时前
数据仓库·hive·hadoop
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数Hive 支持标准 SQL 的数学运算符,用于数值计算。用于条件判断和布尔运算,返回 TRUE/FALSE/NULL。
AQin10121 天前
数据仓库·hive·hadoop·doris
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样结论先行 -> 能看懂的就不用看后面的展开解释咯Hive 承担批处理 ETL 的数据生产责任(清洗→规范化→汇总),把最终需要被高频、低延迟、高并发查询的那部分结果(DWS/ADS/热明细)以批量的方式 Load 进 Doris;Doris 用合适的表模型和分区/分桶设计把这些结果变成"可交互查询",从而把 BI/运营/接口的体验从"分钟级"拉到"秒级"。
AQin10121 天前
大数据·数据库·hive·doris·实时数仓
【对比向】细算“成本”——Hive vs. Doris上一篇说到“Hive 和 Doris 的‘成本模型完全不同’”,有小伙伴私信我问“Doris 比Hive 能贵多少?”,emmm 怎么说呢,这个“成本”不单单是在比谁便宜,更全面一点的理解是:它们花钱的方式和驱动因素根本是两套逻辑。
青春万岁!!2 天前
数据仓库·hive·hadoop
hive分区表加字段后insert字段为空哈喽朋友们,昨天又在生产环境遇到一个分区表加字段后,insert 进去字段为空的问题。原因是要在分区表中加字段,一般为了不影响历史数据都通过alter table table_name add columns 加字段,环境依旧是华为云DataArts。
Nefu_lyh4 天前
数据仓库·hive·hadoop
【Hive】三、Hive 抽样:讲解 Hive 三大抽样方式:分桶抽样、块抽样、随机抽样的原理、语法、性能对比与实战案例我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
迈巴赫车主5 天前
数据仓库·hive·hadoop
Hive中分组聚合导致的数据倾斜优化数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间远超其他Reduce,成为整个任务的瓶颈。Hive中的数据倾斜常出现在分组聚合和join操作的场景中,下面介绍在分组聚合场景下的优化思路。
Leo.yuan6 天前
数据库·hive·mysql
MySQL到Hive数据同步怎么选工具?FineDataLink全链路方案实测把 MySQL 里的数据同步到 Hive。这个需求几乎出现在每一家数据驱动的企业里。业务系统跑在 MySQL 上,数据分析、BI 报表、机器学习训练需要把数据汇聚到 Hive 数仓。听起来是个标准操作,但真正落地时,数据工程师大概率会踩到以下几个坑:
Nefu_lyh6 天前
数据仓库·hive·hadoop
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
Nefu_lyh6 天前
数据仓库·hive·hadoop
【Hive】一、Hive数据类型:基本数据类型、复杂数据类型我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
卷毛迷你猪9 天前
数据仓库·hive·hadoop·分布式
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析本文是“农业气象干旱分析”项目的第四阶段,记录在 Hive 中基于 A3 构建的数仓基础,对全部 102,430 个站点的 9,218,700 条气象观测数据进行干旱事件识别与多维统计分析的完整过程。
冰上浮云9 天前
数据仓库·hive·hadoop·gravitino
Gravitino iceberg catalog backend 为hive 获取元数据过程当 Iceberg Catalog Backend 配置为 Hive 时,Gravitino 通过Hive Metastore (HMS) 和Iceberg 文件系统元数据两部分协同工作来获取完整的库、表、字段等元数据信息。
兔子宇航员030111 天前
hive·hadoop·sql
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案在 SQL 数据分析和报表开发中,NULL 值处理是一个常见但容易被忽视的细节。特别是在涉及多表 JOIN 和 GROUP BY 聚合的场景下,对 NULL 值的处理不当会导致数据丢失、聚合结果不准确等严重问题。本文将深入分析一个典型的 NULL 值陷阱案例,并提供统一的解决方案。
Irene199111 天前
hive·sql·oracle
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理Oracle与Hive中文乱码问题总结核心问题:字符集不一致导致中文乱码。Oracle处理:Hive处理:
无关868811 天前
大数据·hive·spark
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程目标:搭建一套完整的冷热分层数据湖架构,热数据留在 StarRocks,冷数据通过 Spark 搬迁到 MinIO 并通过 Hive Metastore 管理元数据,StarRocks 通过 External Catalog 直接查询。
小欣加油13 天前
数据仓库·hive·hadoop
Hive综合应用案例——用户学历查询
yumgpkpm13 天前
大数据·hive·hadoop·分布式·zookeeper·spark·kafka
Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)在 Qwen3.7 这类大模型的训练流水线中,Hadoop 主要承担“数据底座”的职责。为了让你更直观地理解,我们可以将整个过程分为Hadoop 集群基础部署、数据预处理与存储实战、以及对接 Qwen3.7 训练三个阶段。
juniperhan15 天前
大数据·数据仓库·hive·分布式·sql·flink
Flink 系列第25篇:Flink SQL 集成 Hive 实践:流批一体下的实时数仓利器在实时数仓与流批一体的大趋势下,Flink 作为新一代流计算引擎,如何与既有的数据湖/数仓基础设施(尤其是 Hive)无缝衔接,成为企业级架构的关键。Flink SQL 从 1.10 版本起,提供了对 Hive 元数据、Hive 表读写、Hive UDF 等的深度集成,使得用户可以用熟悉的 SQL 语法直接操作 Hive 数据,打通了流处理与批量处理之间的壁垒。本文将基于 Flink 官方文档,系统性地介绍 Flink SQL 与 Hive 集成的方方面面,从理论基础、环境搭建到核心场景(流式写入 Hiv
r-t-H17 天前
linux·hive·spark·centos·hbase
从零开始搭建CDH-第十二章在开始安装spark服务之前,我们需要关闭部分服务,因为我们是单独的笔记本并不是真实的计算机集群,可能出现内存不够的情况,我们选择关闭hbase和phoenix服务。
王小王-12317 天前
hive·hadoop·hdfs·服装电商分析·服装大数据
基于Hadoop的服装电商数据分析系统【Hdfs、flume、HIve、sqoop、MySQL、echarts】本研究基于服装电商用户行为的开源数据展开大数据分析研究,通过Hadoop大数据分析平台对某大型服装电商平台公开的开源数据集进行多维度的用户行为分析,为服装电商销售提供可行性决策。
青春万岁!!17 天前
大数据·hive·sql
hiveSQL脚本性能优化-减少表扫描哈喽朋友们,今天上班滕总又遇到了问题,为什么他加了几段代码以后,ETL脚本(HiveSQL)就跑不动了?