hdfs

网络工程小王3 小时前
大数据·hadoop·hdfs·big data
【大数据技术详解】——HBase技术(学习笔记)目录HBase 技术深度解析一、核心定位与适用场景✅ 典型用途🎯 适用场景(CAP 理论:CP 系统)
乐hh2 天前
java·大数据·hadoop·hdfs·zookeeper·flink·yarn
Hadoop 3.3.5 + Flink 1.15.3 集群完整部署手册(3节点标准版)本手册基于实际操作中遇到的所有问题整理而成,包含详细的避坑指南。环境为3台虚拟机(2C/4G),IP规划如下:
qq5680180762 天前
hadoop·hdfs·架构
HDFS的架构优势与基本操作如今,数据正以指数级增长,各行各业都在追求更多的数据存储、高效的数据处理和可靠的数据基础来驱动业务的发展。Hadoop Distributed File System(HDFS)作为Hadoop生态系统的核心组件之一,成为构建可靠的大数据基础的不二选择之一。本文将深入剖析HDFS的架构与优势。
Francek Chen2 天前
大数据·数据库·hadoop·分布式·hdfs·hbase
【大数据存储与管理】分布式数据库HBase:03 HBase数据模型【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
网络工程小王4 天前
hadoop·hdfs·big data
【大数据技术详解】——HDFS技术(学习笔记)HDFS(Hadoop Distributed File System)是 Hadoop 的核心组件之一,设计用于存储超大规模数据集,并运行在廉价硬件上。其核心特点包括:
江畔何人初19 天前
大数据·hadoop·hdfs
hadoop中HDFS框架、YARN框架各组件职责与对比HDFS(Hadoop Distributed File System)是 Hadoop 的分布式存储系统。它的设计目的是能够处理海量数据,确保数据存储的高可靠性和高可用性。这个系统的核心结构主要包括 NameNode、DataNode、Secondary NameNode 和 HDFS Client。我们来逐个了解它们的作用。
Francek Chen20 天前
大数据·hadoop·分布式·hdfs
【大数据存储与管理】分布式文件系统HDFS:05 HDFS存储原理【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
张二森22 天前
hdfs
分布式存储的战争(一)大数据的基石-HDFS的崛起本系列文章分为五篇本文为第一篇在HDFS的诞生之前,大容量存储通常都是以一种称为“硬件定义存储”的方式来实现,比如通过构建 SAN(存储区域网络) 等复杂的硬件互联架构来实现。而2003 Google GFS的论文则给了另外一种思路,使用”软件定义存储“,即利用普通商用服务器和通用网络,通过软件层的设计来构建高可靠、高扩展的分布式存储系统。
Francek Chen25 天前
大数据·hadoop·分布式·hdfs
【大数据存储与管理】分布式文件系统HDFS:03 HDFS的相关概念【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
小邓睡不饱耶1 个月前
hadoop·hdfs·spark
Hadoop 3.x实战:基于HDFS+Spark+Flink的实时用户行为分析平台(含Kerberos安全配置+冷热数据分层)在大数据实时化、安全合规要求升级的当下,传统Hadoop集群面临“实时处理弱、安全防护不足、存储成本高”三大痛点。本文基于 Hadoop 3.3.6(最新稳定版),设计一套“离线批处理+实时流计算”一体化的用户行为分析平台,整合HDFS 3.x、Spark 3.4.1、Flink 1.17.0核心组件,融入Kerberos身份认证、HDFS冷热数据分层、列式存储优化等企业级特性,全程拆解从集群部署到业务落地的完整流程,附关键配置与代码实现,可直接适配电商、短视频等场景的用户行为分析需求。
Francek Chen1 个月前
大数据·hadoop·分布式·hdfs·架构
【大数据存储与管理】分布式文件系统HDFS:01 分布式文件系统【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
十月南城1 个月前
hadoop·hdfs·mapreduce
Hadoop基础认知——HDFS、YARN、MapReduce在现代体系中的位置与价值写在前面,本人目前处于求职中,如有合适内推岗位,请加:lpshiyue 感谢。HDFS 是海量数据的基座,MapReduce 是批量计算的引擎,而 YARN 是集群资源的调度者——它们共同构成了大数据处理的“古典三位一体”。
蓝眸少年CY1 个月前
大数据·hadoop·hdfs
Hadoop2-HDFS文件系统目录一、概述1、定义2、特点3、核心架构(主从架构)4、特性5、优缺点6、架构7、文件快大小二、shell操作
Francek Chen1 个月前
大数据·linux·hadoop·hdfs
【大数据基础】实验1:熟悉常用的Linux操作和Hadoop操作【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
TTBIGDATA1 个月前
大数据·网络·hdfs·ui·ambari·hdp·bigtop
【KNOX 】服务启动后,日志中出现与 Ranger 插件资源文件相关的告警 policymgr-ssl 启动告警Knox 服务启动后,日志中出现与 Ranger 插件资源文件相关的告警,典型特征是:观察点 /etc/ranger/abc_knox/ 目录下的文件通常是成对出现的(同一语义两份:默认名 + 带 repo_name 的变体),这为后续“缺哪一个”提供了非常直观的对照基线。
ha_lydms2 个月前
大数据·hadoop·hdfs·架构·mapreduce·yarn·数据处理
Hadoop 架构高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
Francek Chen2 个月前
大数据·hadoop·分布式·hdfs·架构
【大数据基础】大数据处理架构Hadoop:02 Hadoop生态系统【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
德彪稳坐倒骑驴2 个月前
数据库·mysql·hdfs
DataX将数据在MySQL和HDFS之间互相迁移1. 解压([root@master install]# tar -zxvf datax.tar.gz)
查士丁尼·绵2 个月前
hive·hdfs·zookeeper·spark·hbase·yarn·galera
hadoop集群存算分离管理 node1:Active NameNode + Active ResourceManager备用管理 node2:Standby NameNode + Standby ResourceManager
roman_日积跬步-终至千里2 个月前
大数据·hadoop·hdfs
【Hadoop】HDFS Router-based Federation:解决 NameNode 扩展性问题的联邦方案NameNode 因元数据开销、DataNode 心跳管理和 HDFS RPC 请求数量限制,存在扩展性瓶颈。传统 HDFS Federation 方案需要用户手动管理多个子集群,Router-based Federation(RBF)通过引入 Router 和 State Store 组件,实现了透明的联邦访问和自动化的子集群管理。