技术栈
hadoop
卷毛迷你猪
17 小时前
大数据
·
hadoop
·
分布式
快速实验篇(A3)基于 Hive 的气象数据数仓构建与干旱指标初步分析
在前面两个阶段(A2-1 和 A2-2),我们使用 Java 和 Python 编写 MapReduce 程序完成了数据清洗。MapReduce 虽然强大,但每完成一个统计任务都需要编写几十上百行代码、编译、打包、提交作业,门槛高、效率低。
卷毛迷你猪
17 小时前
数据仓库
·
hive
·
hadoop
·
分布式
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析
本文是“农业气象干旱分析”项目的第四阶段,记录在 Hive 中基于 A3 构建的数仓基础,对全部 102,430 个站点的 9,218,700 条气象观测数据进行干旱事件识别与多维统计分析的完整过程。
冰上浮云
19 小时前
数据仓库
·
hive
·
hadoop
·
gravitino
Gravitino iceberg catalog backend 为hive 获取元数据过程
当 Iceberg Catalog Backend 配置为 Hive 时,Gravitino 通过Hive Metastore (HMS) 和Iceberg 文件系统元数据两部分协同工作来获取完整的库、表、字段等元数据信息。
段一凡-华北理工大学
19 小时前
数据仓库
·
hadoop
·
架构
·
高炉炼铁
·
工业智能体
·
高炉智能化
·
hive数据仓库
工业领域的Hadoop架构学习~系列文章06:Hive数据仓库
导言:任何不理解Hive查询优化原理的工程师无法胜任数据仓库的设计与调优。本期我们将深入Hive的架构核心,从查询编译的数学过程出发,阐明基于代价的查询优化器(CBO)的优化原理;解析执行引擎的进化历程;以及为什么LLAP正在成为工业实时查询的关键技术。
段一凡-华北理工大学
2 天前
人工智能
·
hadoop
·
学习
·
架构
·
系统架构
·
高炉炼铁
·
高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章04:YARN资源调度架构
导言:任何不理解YARN资源调度数学原理的架构师都无法设计出公平高效的多租户平台。本期我们将深入资源调度的理论基础,从公平性度量(Max-Min Fairness)出发,阐明Capacity Scheduler和Fair Scheduler的设计原理;解析YARN的容器抽象与资源隔离机制;以及为什么在云原生时代Kubernetes正在成为YARN的替代者。
卷毛迷你猪
2 天前
hadoop
·
分布式
快速实验篇(A2-2)数据清洗规则修正与多语言实现验证
在 A2-1 完成后,集群曾短暂稳定,但随后发现 yarn node -list 仅显示 2 个节点,worker1 缺失。以下为完整的排查、定位与修复过程。(本质上是A2-1执行后未释放中间临时数据暂用内容导致)
段一凡-华北理工大学
2 天前
人工智能
·
hadoop
·
学习
·
架构
·
kafka
·
工业智能体
·
高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章05:Kafka消息队列 - 工业数据流传输
导言:任何不理解Kafka消息语义和ISR机制的工程师无法设计可靠的工业数据采集系统。本期我们将深入Kafka的核心设计,从分布式日志的数学本质出发,阐明ISR机制如何保证数据持久性;解析Exactly-Once语义的实现原理;以及工业场景的高吞吐、低延迟配置优化策略。
兔子宇航员0301
3 天前
hive
·
hadoop
·
sql
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
在 SQL 数据分析和报表开发中,NULL 值处理是一个常见但容易被忽视的细节。特别是在涉及多表 JOIN 和 GROUP BY 聚合的场景下,对 NULL 值的处理不当会导致数据丢失、聚合结果不准确等严重问题。本文将深入分析一个典型的 NULL 值陷阱案例,并提供统一的解决方案。
段一凡-华北理工大学
3 天前
大数据
·
人工智能
·
hadoop
·
学习
·
架构
·
高炉炼铁
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
导言:任何不理解HDFS底层协议的工程师都无法胜任工业大数据平台的架构设计。本期我们将从分布式存储的第一性原理出发,深入剖析HDFS的Block存储协议、Pipeline写入机制、NameNode元数据管理、以及高可用选举的数学本质。只有理解这些底层机制,才能在工业场景中做出正确的架构决策——为什么选择128MB块大小?Write-Ahead Log如何保证故障恢复?QJM与NFS共享存储两种HA方案的本质区别是什么?
段一凡-华北理工大学
3 天前
大数据
·
人工智能
·
hadoop
·
学习
·
架构
·
高炉炼铁
·
高炉智能化
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
导言:任何不理解MapReduce数学本质的工程师都无法胜任大数据平台的性能优化。本期我们将深入函数式编程的第一性原理,从λ演算出发,阐明Map和Reduce设计背后的数学必然性;解析Shuffle阶段的排序网络本质;以及为什么在工业场景中Spark正在替代MapReduce,而Flink又为何成为实时处理的首选。
小欣加油
4 天前
大数据
·
数据库
·
hadoop
Hadoop开发环境搭建
按顺序输入运行即可注意:#后的为注释,请不要复制到命令行,按顺序输入代码部分即可。
段一凡-华北理工大学
4 天前
大数据
·
hadoop
·
学习
·
架构
·
知识图谱
·
高炉炼铁
·
工业智能体
工业领域的Hadoop架构学习~系列文章01:Hadoop与工业4.0深度融合
导言:任何脱离工业场景需求的Hadoop架构设计都是纸上谈兵。本期我们将从工业大数据的第一性原理出发,深入剖析Hadoop生态系统在工业场景中必须解决的四大核心问题——海量异构数据的统一存储、强一致性保证下的高可用写入、实时与批处理的有机融合、以及端到端数据质量的追溯管控。只有理解这些问题背后的物理本质,才能设计出真正经得起生产验证的工业大数据架构。
小欣加油
5 天前
数据仓库
·
hive
·
hadoop
Hive综合应用案例——用户学历查询
至此流年莫相忘
5 天前
linux
·
hadoop
·
centos
CentOS 部署 Hadoop 环境指导文档
使用 sudo 权限在 /usr/local/ 下创建专用的 java 目录:进入存放安装包的 env 目录,将 jdk-8u202-linux-x64.tar.gz 解压至指定路径:
yumgpkpm
5 天前
大数据
·
hive
·
hadoop
·
分布式
·
zookeeper
·
spark
·
kafka
Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)
Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)在 Qwen3.7 这类大模型的训练流水线中,Hadoop 主要承担“数据底座”的职责。为了让你更直观地理解,我们可以将整个过程分为Hadoop 集群基础部署、数据预处理与存储实战、以及对接 Qwen3.7 训练三个阶段。
Irene1991
6 天前
hadoop
·
sqoop
正确停止 Sqoop 任务:yarn application -kill(直接 kill 进程会触发重启,且可能导致状态不一致)
使用kill-9终止Sqoop进程时出现进程自动重启现象,这是因为Yarn的资源管理器会监控并自动重启失败的任务。
南屹川
6 天前
大数据
·
人工智能
·
hadoop
·
flink
·
spark
·
数据处理
【大数据】大数据处理技术栈:从采集到分析的完整链路
大数据具有以下特征(5V):参考资料:
Irene1991
7 天前
hadoop
·
ubuntu
·
sqoop
Sqoop 安装完整教程(基于 WSL2 + Ubuntu 24.04)
本教程详细介绍了在WSL2+Ubuntu24.04环境下安装配置Sqoop1.4.7的完整流程:安装完成后,用户已具备在Hadoop和关系型数据库间迁移数据的能力。
m0_63931079
8 天前
java
·
大数据
·
jvm
·
hadoop
·
spring
·
hdfs
·
eclipse
大数据技术原理-HDFS的安装与应用
本实验报告详细记录了“大数据技术原理”课程中的HDFS(Hadoop分布式文件系统)实验。实验环境基于Ubuntu操作系统,Hadoop框架,以及开发工具JDK和Eclipse。实验内容涵盖了Hadoop的启动、HDFS命令的操作,包括目录的创建、文件的查看、复制、移动和删除,以及通过Java应用程序与HDFS的交互。实验中,解决了运行HDFS时的启动顺序问题,以及如何验证Java应用程序与HDFS交互后文件的生成情况。通过本次实验,深入了解了HDFS的基本命令及其作用,掌握了在Hadoop平台上进行文件
18810506963
8 天前
大数据
·
hadoop
·
分布式
摸鱼事务所——团队作业——大模型评测作业
本次作业通过构建自动化购车决策评测系统,对两个大语言模型在真实购车场景中的表现进行量化评估。这不仅是对模型能力的测试,更是对软件工程实践中自动化测试、需求分析和系统设计能力的综合锻炼。