hive

王小王-12314 天前
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
基于 Hive 的网易云音乐数据分析及可视化系统目录一、项目背景二、项目整体思路三、资料结构四、数据采集五、数据预处理六、Hive离线分析七、可视化大屏
TPBoreas16 天前
数据仓库·hive·hadoop
springboot3.5比2.x做了哪儿些提升先说结论:Spring Boot 3.5 相对 2.x,不是小版本升级,而是一整代(3.0 → 3.5)的现代化改造。3.5 是 3.x 的最后一个 minor,在 2.x 基础上叠加了基础栈换代 + 性能 + 开发体验 + 可观测性 + 运维能力。
Nefu_lyh17 天前
数据仓库·hive·hadoop
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组聚合函数(Aggregate Functions)是 Hive 中用于对一组行进行计算并返回单个结果的函数,通常配合 GROUP BY 使用,是数仓查询、报表统计的核心工具。
KANGBboy18 天前
数据仓库·hive·hadoop
hive UDF函数1.1 UDF(User-Defined-Function) 一进一出。 1.2 UDAF(User-Defined Aggregation Function) 用户自定义聚合函数,多进一出。类似于count/max/min 1.3 UDTF(User-Defined Table-Generating Functions) 用户自定义表生成函数,一进多出。如lateral view explode()
王小王-12319 天前
hive·情感分析·商品评价分析·主题分析·商品评论分析
基于商品评价的评论情感分析与可视化系统基于商品评价的评论情感分析与可视化系统项目介绍Python + SnowNLP + LDA + Hive + Flask
Nefu_lyh20 天前
hive·spark·mapreduce
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型计算引擎是大数据处理中的核心软件框架,它负责对海量数据执行具体的计算任务,是数据从“存储”到“价值”的加工车间。
白日与明月21 天前
数据仓库·hive·hadoop
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?今日和同事争论了片刻,背景是这样的, 有个客户写了一个SQL, 然后其中需要进行排序, 但是写了Order by, 但是排序没有生效. 然后我就尝试了下, 果然,在大数据平台里执行,是报错的. 但是在beeline执行, 查询结果是正常的, 所以就怀疑研发写了一个BUG, 于是就开始争论. SQL很简单,简写为
Nefu_lyh22 天前
数据仓库·hive·hadoop
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数Hive 支持标准 SQL 的数学运算符,用于数值计算。用于条件判断和布尔运算,返回 TRUE/FALSE/NULL。
AQin101223 天前
数据仓库·hive·hadoop·doris
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样结论先行 -> 能看懂的就不用看后面的展开解释咯Hive 承担批处理 ETL 的数据生产责任(清洗→规范化→汇总),把最终需要被高频、低延迟、高并发查询的那部分结果(DWS/ADS/热明细)以批量的方式 Load 进 Doris;Doris 用合适的表模型和分区/分桶设计把这些结果变成"可交互查询",从而把 BI/运营/接口的体验从"分钟级"拉到"秒级"。
AQin101223 天前
大数据·数据库·hive·doris·实时数仓
【对比向】细算“成本”——Hive vs. Doris上一篇说到“Hive 和 Doris 的‘成本模型完全不同’”,有小伙伴私信我问“Doris 比Hive 能贵多少?”,emmm 怎么说呢,这个“成本”不单单是在比谁便宜,更全面一点的理解是:它们花钱的方式和驱动因素根本是两套逻辑。
青春万岁!!24 天前
数据仓库·hive·hadoop
hive分区表加字段后insert字段为空哈喽朋友们,昨天又在生产环境遇到一个分区表加字段后,insert 进去字段为空的问题。原因是要在分区表中加字段,一般为了不影响历史数据都通过alter table table_name add columns 加字段,环境依旧是华为云DataArts。
Nefu_lyh1 个月前
数据仓库·hive·hadoop
【Hive】三、Hive 抽样:讲解 Hive 三大抽样方式:分桶抽样、块抽样、随机抽样的原理、语法、性能对比与实战案例我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
迈巴赫车主1 个月前
数据仓库·hive·hadoop
Hive中分组聚合导致的数据倾斜优化数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间远超其他Reduce,成为整个任务的瓶颈。Hive中的数据倾斜常出现在分组聚合和join操作的场景中,下面介绍在分组聚合场景下的优化思路。
Leo.yuan1 个月前
数据库·hive·mysql
MySQL到Hive数据同步怎么选工具?FineDataLink全链路方案实测把 MySQL 里的数据同步到 Hive。这个需求几乎出现在每一家数据驱动的企业里。业务系统跑在 MySQL 上,数据分析、BI 报表、机器学习训练需要把数据汇聚到 Hive 数仓。听起来是个标准操作,但真正落地时,数据工程师大概率会踩到以下几个坑:
Nefu_lyh1 个月前
数据仓库·hive·hadoop
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
Nefu_lyh1 个月前
数据仓库·hive·hadoop
【Hive】一、Hive数据类型:基本数据类型、复杂数据类型我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
卷毛迷你猪1 个月前
数据仓库·hive·hadoop·分布式
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析本文是“农业气象干旱分析”项目的第四阶段,记录在 Hive 中基于 A3 构建的数仓基础,对全部 102,430 个站点的 9,218,700 条气象观测数据进行干旱事件识别与多维统计分析的完整过程。
冰上浮云1 个月前
数据仓库·hive·hadoop·gravitino
Gravitino iceberg catalog backend 为hive 获取元数据过程当 Iceberg Catalog Backend 配置为 Hive 时,Gravitino 通过Hive Metastore (HMS) 和Iceberg 文件系统元数据两部分协同工作来获取完整的库、表、字段等元数据信息。
兔子宇航员03011 个月前
hive·hadoop·sql
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案在 SQL 数据分析和报表开发中,NULL 值处理是一个常见但容易被忽视的细节。特别是在涉及多表 JOIN 和 GROUP BY 聚合的场景下,对 NULL 值的处理不当会导致数据丢失、聚合结果不准确等严重问题。本文将深入分析一个典型的 NULL 值陷阱案例,并提供统一的解决方案。
Irene19911 个月前
hive·sql·oracle
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理Oracle与Hive中文乱码问题总结核心问题:字符集不一致导致中文乱码。Oracle处理:Hive处理: