技术栈
hive
王小王-123
14 天前
hive
·
hadoop
·
数据分析
·
音乐数据分析
·
网易云音乐分析
·
hive音乐分析
·
hadoop网易云
基于 Hive 的网易云音乐数据分析及可视化系统
目录一、项目背景二、项目整体思路三、资料结构四、数据采集五、数据预处理六、Hive离线分析七、可视化大屏
TPBoreas
16 天前
数据仓库
·
hive
·
hadoop
springboot3.5比2.x做了哪儿些提升
先说结论:Spring Boot 3.5 相对 2.x,不是小版本升级,而是一整代(3.0 → 3.5)的现代化改造。3.5 是 3.x 的最后一个 minor,在 2.x 基础上叠加了基础栈换代 + 性能 + 开发体验 + 可观测性 + 运维能力。
Nefu_lyh
17 天前
数据仓库
·
hive
·
hadoop
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
聚合函数(Aggregate Functions)是 Hive 中用于对一组行进行计算并返回单个结果的函数,通常配合 GROUP BY 使用,是数仓查询、报表统计的核心工具。
KANGBboy
18 天前
数据仓库
·
hive
·
hadoop
hive UDF函数
1.1 UDF(User-Defined-Function) 一进一出。 1.2 UDAF(User-Defined Aggregation Function) 用户自定义聚合函数,多进一出。类似于count/max/min 1.3 UDTF(User-Defined Table-Generating Functions) 用户自定义表生成函数,一进多出。如lateral view explode()
王小王-123
19 天前
hive
·
情感分析
·
商品评价分析
·
主题分析
·
商品评论分析
基于商品评价的评论情感分析与可视化系统
基于商品评价的评论情感分析与可视化系统项目介绍Python + SnowNLP + LDA + Hive + Flask
Nefu_lyh
20 天前
hive
·
spark
·
mapreduce
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型
计算引擎是大数据处理中的核心软件框架,它负责对海量数据执行具体的计算任务,是数据从“存储”到“价值”的加工车间。
白日与明月
21 天前
数据仓库
·
hive
·
hadoop
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?
今日和同事争论了片刻,背景是这样的, 有个客户写了一个SQL, 然后其中需要进行排序, 但是写了Order by, 但是排序没有生效. 然后我就尝试了下, 果然,在大数据平台里执行,是报错的. 但是在beeline执行, 查询结果是正常的, 所以就怀疑研发写了一个BUG, 于是就开始争论. SQL很简单,简写为
Nefu_lyh
22 天前
数据仓库
·
hive
·
hadoop
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数
Hive 支持标准 SQL 的数学运算符,用于数值计算。用于条件判断和布尔运算,返回 TRUE/FALSE/NULL。
AQin1012
23 天前
数据仓库
·
hive
·
hadoop
·
doris
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
结论先行 -> 能看懂的就不用看后面的展开解释咯Hive 承担批处理 ETL 的数据生产责任(清洗→规范化→汇总),把最终需要被高频、低延迟、高并发查询的那部分结果(DWS/ADS/热明细)以批量的方式 Load 进 Doris;Doris 用合适的表模型和分区/分桶设计把这些结果变成"可交互查询",从而把 BI/运营/接口的体验从"分钟级"拉到"秒级"。
AQin1012
23 天前
大数据
·
数据库
·
hive
·
doris
·
实时数仓
【对比向】细算“成本”——Hive vs. Doris
上一篇说到“Hive 和 Doris 的‘成本模型完全不同’”,有小伙伴私信我问“Doris 比Hive 能贵多少?”,emmm 怎么说呢,这个“成本”不单单是在比谁便宜,更全面一点的理解是:它们花钱的方式和驱动因素根本是两套逻辑。
青春万岁!!
24 天前
数据仓库
·
hive
·
hadoop
hive分区表加字段后insert字段为空
哈喽朋友们,昨天又在生产环境遇到一个分区表加字段后,insert 进去字段为空的问题。原因是要在分区表中加字段,一般为了不影响历史数据都通过alter table table_name add columns 加字段,环境依旧是华为云DataArts。
Nefu_lyh
1 个月前
数据仓库
·
hive
·
hadoop
【Hive】三、Hive 抽样:讲解 Hive 三大抽样方式:分桶抽样、块抽样、随机抽样的原理、语法、性能对比与实战案例
我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
迈巴赫车主
1 个月前
数据仓库
·
hive
·
hadoop
Hive中分组聚合导致的数据倾斜优化
数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间远超其他Reduce,成为整个任务的瓶颈。Hive中的数据倾斜常出现在分组聚合和join操作的场景中,下面介绍在分组聚合场景下的优化思路。
Leo.yuan
1 个月前
数据库
·
hive
·
mysql
MySQL到Hive数据同步怎么选工具?FineDataLink全链路方案实测
把 MySQL 里的数据同步到 Hive。这个需求几乎出现在每一家数据驱动的企业里。业务系统跑在 MySQL 上,数据分析、BI 报表、机器学习训练需要把数据汇聚到 Hive 数仓。听起来是个标准操作,但真正落地时,数据工程师大概率会踩到以下几个坑:
Nefu_lyh
1 个月前
数据仓库
·
hive
·
hadoop
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践
我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
Nefu_lyh
1 个月前
数据仓库
·
hive
·
hadoop
【Hive】一、Hive数据类型:基本数据类型、复杂数据类型
我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
卷毛迷你猪
1 个月前
数据仓库
·
hive
·
hadoop
·
分布式
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析
本文是“农业气象干旱分析”项目的第四阶段,记录在 Hive 中基于 A3 构建的数仓基础,对全部 102,430 个站点的 9,218,700 条气象观测数据进行干旱事件识别与多维统计分析的完整过程。
冰上浮云
1 个月前
数据仓库
·
hive
·
hadoop
·
gravitino
Gravitino iceberg catalog backend 为hive 获取元数据过程
当 Iceberg Catalog Backend 配置为 Hive 时,Gravitino 通过Hive Metastore (HMS) 和Iceberg 文件系统元数据两部分协同工作来获取完整的库、表、字段等元数据信息。
兔子宇航员0301
1 个月前
hive
·
hadoop
·
sql
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
在 SQL 数据分析和报表开发中,NULL 值处理是一个常见但容易被忽视的细节。特别是在涉及多表 JOIN 和 GROUP BY 聚合的场景下,对 NULL 值的处理不当会导致数据丢失、聚合结果不准确等严重问题。本文将深入分析一个典型的 NULL 值陷阱案例,并提供统一的解决方案。
Irene1991
1 个月前
hive
·
sql
·
oracle
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
Oracle与Hive中文乱码问题总结核心问题:字符集不一致导致中文乱码。Oracle处理:Hive处理: