hadoop

暴躁小师兄数据学院7 小时前
大数据·hadoop·笔记·flink·spark·database
【AI大数据工程师特训笔记】第16讲:大数据环境安装目录第一章:WSL与Java环境安装第二章:Hadoop安装与配置第三章:Hive安装与配置第四章:Spark安装与配置
段一凡-华北理工大学17 小时前
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维导言:工业大数据平台的稳定运行是智能制造的生命线。本期从监控体系架构设计出发,深入剖析Ganglia、Prometheus、Grafana等主流监控工具的集成方案,详细讲解JMX、Metrics接口的暴露与采集,构建完整的告警体系和自动化运维流程。
Nefu_lyh19 小时前
数据仓库·hive·hadoop
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
段一凡-华北理工大学19 小时前
数据仓库·hadoop·学习·架构·高炉炼铁·工业智能体·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章11:Kerberos安全认证导言:在工业4.0时代,数据安全已成为智能制造的生命线。本期深入剖析Kerberos认证协议的对称加密数学原理,详细解析Ticket Granting Ticket的信任链传递机制,以及Hadoop各核心组件的Kerberos集成方案,为工业大数据平台提供企业级的安全保障。
muddjsv20 小时前
数据库·hadoop·hbase
HBase与Hadoop:基于什么开发?深度剖析与架构图在大数据技术栈中,HBase 和 Hadoop 是两个紧密相关且至关重要的组件。许多开发者常常困惑于它们之间的关系:HBase 是基于什么开发的?它与 Hadoop 的核心组件有何联系?本文将深入剖析 HBase 的底层架构,揭示其与 Hadoop 生态系统的依赖关系,并通过清晰的 Mermaid 架构图,帮助您从本质上理解这套分布式存储与计算体系。
muddjsv20 小时前
数据库·hadoop·hbase
HBase 与 Hadoop 安装与上手使用全指导在大数据领域,HBase 作为一款高可靠性、高性能、面向列、可伸缩的分布式 NoSQL 数据库,是 Hadoop 生态系统中的重要一员。它构建在 HDFS(Hadoop Distributed File System)之上,为海量结构化数据的实时读写提供了强大支持。对于初学者而言,如何从零开始搭建 HBase 和 Hadoop 环境并快速上手使用,是进入大数据世界的关键一步。本文将提供一份从环境准备、安装配置到基础操作的全流程指导,帮助你快速搭建并运行起自己的 HBase 集群。
Nefu_lyh20 小时前
数据仓库·hive·hadoop
【Hive】一、Hive数据类型:基本数据类型、复杂数据类型我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
冷色调的咖啡师20 小时前
大数据·linux·hadoop·hdfs·zookeeper·yarn
4.大数据高可用高可用是为了保障重要的数据完整性,namenode宕机会导致集群不可用,如果节点数据丢失会导致整个集群数据丢失,namenode作为数据存储节点是HDFS核心而后者又是Hadoop的核心组件,所以namenode的高可用是Hadoop高可用的重要组成部分
冷色调的咖啡师20 小时前
大数据·linux·hadoop·分布式·hdfs·架构·yarn
1.大数据架构技术 上——搭建分布式Hadoop集群单机:在一台机器上部署 伪分布式:在一台机器上部署,区分多个角色管理 完全分布式:多台机器节点组成集群,不同角色部署在不同机器上
cg.family20 小时前
大数据·hadoop·kubernetes
Hadoop vs Kubernetes 对比记忆如果你熟悉 Hadoop 生态,理解 Kubernetes(K8s)会轻松很多。两者虽然解决不同问题(Hadoop 解决大数据存储计算,K8s 解决容器编排),但架构设计哲学惊人相似:都有一个“主节点”负责调度和管理,一群“工作节点”真正干活。
段一凡-华北理工大学2 天前
数据库·人工智能·hadoop·架构·hbase·高炉炼铁·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章09:HBase列式数据库导言:任何不理解HBase数据模型和Region管理的工程师无法设计高可用的NoSQL存储系统。本期我们将深入HBase的核心设计,从LSM-Tree的数学本质出发,阐明写放大问题的根因与优化;解析Region分裂的策略与调优;以及工业场景的高并发读取优化。
muddjsv2 天前
hadoop·架构·hbase
Hadoop 与 HBase 深度剖析:从架构原理到实战应用在大数据技术栈中,Hadoop 和 HBase 是两个至关重要的基石。Hadoop 作为分布式存储与计算的鼻祖,解决了海量数据的存储(HDFS)和批处理(MapReduce)问题。而 HBase 则构建在 Hadoop 之上,提供了一个高可靠性、高性能、面向列的分布式数据库,解决了海量数据的实时随机读写需求。理解它们的关系、原理与应用,是掌握大数据核心技术的关键一步。
段一凡-华北理工大学2 天前
大数据·人工智能·hadoop·分布式·学习·工业智能体·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章10:数据序列化与压缩导言:任何不理解序列化与压缩技术的工程师无法设计高效的数据存储系统。本期我们将深入序列化与压缩的数学本质,从信息熵理论出发,阐明压缩算法的选择原理;解析Avro/Parquet等列式格式的设计优势;以及工业场景的序列化与压缩配置优化。
段一凡-华北理工大学3 天前
人工智能·hadoop·学习·架构·flink·高炉炼铁·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章08:Flink流处理引擎导言:任何不理解Flink WaterMark机制的工程师无法设计可靠的实时工业系统。本期我们将深入Flink的核心设计,从事件时间处理的水印理论出发,阐明乱序事件处理的数学保证;解析窗口计算的数学形式化;以及Exactly-Once端到端语义的实现原理。
段一凡-华北理工大学3 天前
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章07:Spark内存计算引擎导言:任何不理解Spark RDD设计哲学的工程师无法胜任大数据平台的性能优化。本期我们将深入Spark的核心设计,从RDD的不可变性论出发,阐明Lineage血统追踪的容错原理;解析DAG调度器的优化策略;以及DataFrame/Dataset如何通过Tungsten引擎实现工业级性能提升。
卷毛迷你猪4 天前
大数据·hadoop·分布式
快速实验篇(A3)基于 Hive 的气象数据数仓构建与干旱指标初步分析在前面两个阶段(A2-1 和 A2-2),我们使用 Java 和 Python 编写 MapReduce 程序完成了数据清洗。MapReduce 虽然强大,但每完成一个统计任务都需要编写几十上百行代码、编译、打包、提交作业,门槛高、效率低。
卷毛迷你猪4 天前
数据仓库·hive·hadoop·分布式
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析本文是“农业气象干旱分析”项目的第四阶段,记录在 Hive 中基于 A3 构建的数仓基础,对全部 102,430 个站点的 9,218,700 条气象观测数据进行干旱事件识别与多维统计分析的完整过程。
冰上浮云4 天前
数据仓库·hive·hadoop·gravitino
Gravitino iceberg catalog backend 为hive 获取元数据过程当 Iceberg Catalog Backend 配置为 Hive 时,Gravitino 通过Hive Metastore (HMS) 和Iceberg 文件系统元数据两部分协同工作来获取完整的库、表、字段等元数据信息。
段一凡-华北理工大学4 天前
数据仓库·hadoop·架构·高炉炼铁·工业智能体·高炉智能化·hive数据仓库
工业领域的Hadoop架构学习~系列文章06:Hive数据仓库导言:任何不理解Hive查询优化原理的工程师无法胜任数据仓库的设计与调优。本期我们将深入Hive的架构核心,从查询编译的数学过程出发,阐明基于代价的查询优化器(CBO)的优化原理;解析执行引擎的进化历程;以及为什么LLAP正在成为工业实时查询的关键技术。
段一凡-华北理工大学5 天前
人工智能·hadoop·学习·架构·系统架构·高炉炼铁·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章04:YARN资源调度架构导言:任何不理解YARN资源调度数学原理的架构师都无法设计出公平高效的多租户平台。本期我们将深入资源调度的理论基础,从公平性度量(Max-Min Fairness)出发,阐明Capacity Scheduler和Fair Scheduler的设计原理;解析YARN的容器抽象与资源隔离机制;以及为什么在云原生时代Kubernetes正在成为YARN的替代者。