hdfs

Francek Chen4 小时前
大数据·hadoop·分布式·hdfs
【大数据存储与管理】分布式文件系统HDFS:05 HDFS存储原理【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
张二森2 天前
hdfs
分布式存储的战争(一)大数据的基石-HDFS的崛起本系列文章分为五篇本文为第一篇在HDFS的诞生之前,大容量存储通常都是以一种称为“硬件定义存储”的方式来实现,比如通过构建 SAN(存储区域网络) 等复杂的硬件互联架构来实现。而2003 Google GFS的论文则给了另外一种思路,使用”软件定义存储“,即利用普通商用服务器和通用网络,通过软件层的设计来构建高可靠、高扩展的分布式存储系统。
Francek Chen5 天前
大数据·hadoop·分布式·hdfs
【大数据存储与管理】分布式文件系统HDFS:03 HDFS的相关概念【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
小邓睡不饱耶10 天前
hadoop·hdfs·spark
Hadoop 3.x实战:基于HDFS+Spark+Flink的实时用户行为分析平台(含Kerberos安全配置+冷热数据分层)在大数据实时化、安全合规要求升级的当下,传统Hadoop集群面临“实时处理弱、安全防护不足、存储成本高”三大痛点。本文基于 Hadoop 3.3.6(最新稳定版),设计一套“离线批处理+实时流计算”一体化的用户行为分析平台,整合HDFS 3.x、Spark 3.4.1、Flink 1.17.0核心组件,融入Kerberos身份认证、HDFS冷热数据分层、列式存储优化等企业级特性,全程拆解从集群部署到业务落地的完整流程,附关键配置与代码实现,可直接适配电商、短视频等场景的用户行为分析需求。
Francek Chen12 天前
大数据·hadoop·分布式·hdfs·架构
【大数据存储与管理】分布式文件系统HDFS:01 分布式文件系统【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
十月南城16 天前
hadoop·hdfs·mapreduce
Hadoop基础认知——HDFS、YARN、MapReduce在现代体系中的位置与价值写在前面,本人目前处于求职中,如有合适内推岗位,请加:lpshiyue 感谢。HDFS 是海量数据的基座,MapReduce 是批量计算的引擎,而 YARN 是集群资源的调度者——它们共同构成了大数据处理的“古典三位一体”。
蓝眸少年CY16 天前
大数据·hadoop·hdfs
Hadoop2-HDFS文件系统目录一、概述1、定义2、特点3、核心架构(主从架构)4、特性5、优缺点6、架构7、文件快大小二、shell操作
Francek Chen18 天前
大数据·linux·hadoop·hdfs
【大数据基础】实验1:熟悉常用的Linux操作和Hadoop操作【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
TTBIGDATA20 天前
大数据·网络·hdfs·ui·ambari·hdp·bigtop
【KNOX 】服务启动后,日志中出现与 Ranger 插件资源文件相关的告警 policymgr-ssl 启动告警Knox 服务启动后,日志中出现与 Ranger 插件资源文件相关的告警,典型特征是:观察点 /etc/ranger/abc_knox/ 目录下的文件通常是成对出现的(同一语义两份:默认名 + 带 repo_name 的变体),这为后续“缺哪一个”提供了非常直观的对照基线。
ha_lydms23 天前
大数据·hadoop·hdfs·架构·mapreduce·yarn·数据处理
Hadoop 架构高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
Francek Chen1 个月前
大数据·hadoop·分布式·hdfs·架构
【大数据基础】大数据处理架构Hadoop:02 Hadoop生态系统【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
德彪稳坐倒骑驴1 个月前
数据库·mysql·hdfs
DataX将数据在MySQL和HDFS之间互相迁移1. 解压([root@master install]# tar -zxvf datax.tar.gz)
查士丁尼·绵1 个月前
hive·hdfs·zookeeper·spark·hbase·yarn·galera
hadoop集群存算分离管理 node1:Active NameNode + Active ResourceManager备用管理 node2:Standby NameNode + Standby ResourceManager
roman_日积跬步-终至千里1 个月前
大数据·hadoop·hdfs
【Hadoop】HDFS Router-based Federation:解决 NameNode 扩展性问题的联邦方案NameNode 因元数据开销、DataNode 心跳管理和 HDFS RPC 请求数量限制,存在扩展性瓶颈。传统 HDFS Federation 方案需要用户手动管理多个子集群,Router-based Federation(RBF)通过引入 Router 和 State Store 组件,实现了透明的联邦访问和自动化的子集群管理。
JavaEdge.1 个月前
java·开发语言·hdfs
java.io.IOException: Previous writer likely failed to write hdfs报错解决方案本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!这错误表明 Hive 无法在 HDFS 上写入临时文件,通常权限或 HDFS 存储空间问题,与 Hive 的临时目录权限和 Tez 会话相关。
鹿衔`1 个月前
hdfs·yarn·cdh·cdh集群优化
CDH 6.3.2 异构集群优化实施文档目录1. 集群硬件现状与优化策略2. 操作系统级优化 (Linux Base)2.1 基础监控工具安装
talle20211 个月前
大数据·hadoop·hdfs
Hadoop分布式文件系统【HDFS】目录1.系统架构2.存储机制2.1 文件存储2.2 元数据存储3.读写操作3.1 写操作3.2 读操作
星火开发设计1 个月前
大数据·数据库·hadoop·学习·hdfs·分布式数据库·知识
深入浅出HDFS:分布式文件系统核心原理与实践解析在大数据时代,海量数据的存储与管理成为核心挑战。HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)作为Hadoop生态的核心组件之一,专为处理大规模数据集的分布式存储而设计,具备高容错性、高吞吐量、可扩展性等特性,广泛应用于大数据分析、机器学习训练、日志存储等场景。本文将从HDFS的设计理念出发,详细拆解其核心架构与组件功能,深入讲解读写流程、容错机制等关键原理,同时梳理实际应用中的部署与优化要点,帮助读者全面掌握HDFS的核心知识。
鲨莎分不晴1 个月前
大数据·hadoop·hdfs
大数据的“数字金库”:HDFS 核心原理与操作指令全解简单来说,HDFS 就是一个超级硬盘。你买一台顶配的服务器,硬盘撑死也就几十 TB。但互联网大厂每天产生的数据可能有 PB 级(1PB = 1024TB)。物理上没有这么大的单块硬盘,怎么办?
鹿衔`1 个月前
大数据·hadoop·hdfs
Hadoop HDFS 核心机制与设计理念浅析文档目录第一部分:HDFS 块大小(Block Size)机制解析1. 默认值设定2. 为什么是 128MB?(核心原理)