hdfs

码字的字节3 天前
hadoop·hdfs·rpc
深入解析Hadoop高频面试题:HDFS读/写流程的RPC调用链HDFS(Hadoop Distributed File System)作为Hadoop生态的核心存储组件,其读写流程的设计体现了分布式系统的高可靠性与高吞吐特性。理解HDFS读写机制的核心框架,是掌握大数据存储技术的基础,也是面试中高频考察的技术要点。
码字的字节10 天前
hadoop·安全·hdfs·kerberos·acl
Hadoop安全机制深度剖析:Kerberos认证与HDFS ACL细粒度权限控制在大数据时代,Hadoop作为分布式计算框架的核心组件,其安全性直接关系到企业数据资产的保护。随着数据价值的不断提升,Hadoop安全机制已从早期的"简单信任模式"演进为包含多重防护措施的综合体系,其重要性主要体现在三个方面:防止未授权访问、保障数据完整性以及满足合规性要求。
码字的字节13 天前
大数据·hadoop·hdfs
深入解析Hadoop中的HDFS架构设计作为Hadoop生态系统的基石,HDFS(Hadoop Distributed File System)是一种专为大规模数据处理而设计的分布式文件系统。它的核心设计理念源于对互联网时代数据特征的深刻洞察——数据规模呈指数级增长,而硬件故障在廉价商用服务器集群中成为常态。这种设计哲学使得HDFS在应对PB级甚至EB级数据存储时展现出独特优势,成为大数据基础设施中不可或缺的组成部分。
无级程序员23 天前
hive·hadoop·hdfs
hive2服务启动报错:/tmp/hive on HDFS should be writable(不是chmod 777能解决的)启动报错如下:网上一大堆说是把hdfs上的/tmp权限改成777,如果真是这么简单,那按提示修改权限就是了,但实际查看/tmp的权限没问题,/tmp/hive的权限也没问题,如下图: 这个问题卡了我大半天,后来才猜想应该是/user/hive的权限问题导致的,直接删除/user/hive,重建后,把/user/hive的owner改为hive,重新启动就好了:
viperrrrrrrrrr725 天前
大数据·hdfs·hbase
大数据(1)-hdfs&hbaseHDFS是一个标准的主从(Master/Slave)体系结构的分布式系统;HDFS集群包含一个或多个NameNode(NameNode HA会有多个NameNode) 和 多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode 和 DataNode进行交互以访问文件系统。 HDFS公开文件系统名称空间,并允许将用户数据存储在文件中。在内部,一个文件被分成一个或多个块,这些块存储在一组datanode中。NameNode执行文件系统名称空间操作,如打开、关闭和重命名文件和目录
云淡风轻~~1 个月前
hadoop·hdfs
Hadoop HDFS存储机制与块大小选择权衡HDFS中的 块大小(block size) 是一个逻辑概念,而非物理预分配:选择128MB作为HDFS默认块大小,主要基于三个方面的综合考虑:技术因素、实践因素和平衡考虑。
liuze4081 个月前
大数据·hadoop·hdfs
VMware虚拟机集群上部署HDFS集群官方网址:https://hadoop.apache.org,点击Download。hadoop环境配置前置准备-CSDN博客
陌殇殇1 个月前
hadoop·spring boot·hdfs
Hadoop 002 — HDFS常用命令及SpringBoot整合操作列出指定路径下的文件和目录信息。``创建目录,-p参数用于创建多级目录。删除文件或目录,-r参数用于递归删除目录(可选)。
北漂老男孩2 个月前
大数据·hadoop·hdfs·学习方法
Hadoop HDFS 体系结构与文件读写流程剖析HDFS(Hadoop Distributed File System) 是 Hadoop 的分布式文件系统,专为大规模数据存储和高吞吐量访问设计,具备高容错性和可扩展性,适合部署在廉价硬件集群上。
北漂老男孩2 个月前
大数据·hadoop·hdfs
Hadoop 大数据启蒙:初识 HDFS关键词:Hadoop、HDFS、分布式存储、NameNode、DataNode、大数据入门HDFS(Hadoop Distributed File System)是 Hadoop 生态中最核心的组件之一,是为大规模数据存储和高吞吐量数据访问而设计的分布式文件系统。它允许用户将超大文件存储在由普通硬件组成的集群上,具备高容错、横向扩展能力强等特点。
北漂老男孩2 个月前
大数据·hadoop·分布式·hdfs·学习方法
Hadoop 大数据启蒙:深入解析分布式基石 HDFS分布式存储的本质:用廉价机器集群解决海量数据的存储与容错问题当数据规模突破单机极限(如 PB 级),传统存储面临核心瓶颈:
IT成长日记2 个月前
hive·hdfs·sqoop
【Sqoop基础】Sqoop生态集成:与HDFS、Hive、HBase等组件的协同关系深度解析目录1 Sqoop概述与大数据生态定位2 Sqoop与HDFS的深度集成2.1 技术实现原理2.2 详细工作流程
长勺2 个月前
hadoop·hdfs·mapreduce
HDFS存储原理与MapReduce计算模型写入流程:读取流程:Map阶段:Shuffle与Sort阶段:Reduce阶段:
敖云岚2 个月前
大数据·hadoop·hdfs
【Hadoop】大数据技术之 HDFS目录一、HDFS 概述1.1 HDFS 产出背景及定义1.2 HDFS 优缺点1.3 HDFS 组成架构
wuli玉shell2 个月前
大数据·hadoop·hdfs
Hadoop-HDFS-Packet含义及作用在 HDFS(Hadoop Distributed File System)中,Packet 是数据读写过程中用于数据传输的基本单位。它是 HDFS 客户端与数据节点(DataNode)之间进行数据交互时的核心概念,尤其在写入和读取文件时,Packet 的设计对性能和可靠性有重要作用。
LiRuiJie2 个月前
hive·hadoop·hdfs
深度解析 HDFS与Hive的关系我们将从 HDFS(Hadoop Distributed File System) 的架构入手,深入剖析其核心组成、工作机制、内部流程与高可用机制。然后详细阐述 Hive 与 HDFS 的关系,从执行流程、元数据管理、文件读写、计算耦合等角度分析其融合方式。
coding随想2 个月前
大数据·hdfs·hbase
大数据技术全景解析:HDFS、HBase、MapReduce 与 Chukwa在当今这个信息爆炸的时代,大数据已经成为企业竞争力的重要组成部分。从电商的用户行为分析到金融的风险控制,从医疗健康的数据挖掘到智能制造的实时监控,大数据技术无处不在。然而,面对PB级甚至EB级的数据规模,传统的计算和存储方式已无法胜任。于是,以 Hadoop 生态系统 为代表的大数据技术应运而生。
小飞敲代码2 个月前
大数据·linux·运维·服务器·hadoop·分布式·hdfs
【Hadoop 实战】Yarn 模式上传 HDFS 卡顿时 “No Route to Host“ 错误深度解析与解决方案大家好,我是小飞!最近在大数据集群运维中遇到一个典型问题:使用 Yarn 模式向 HDFS 上传大文件时进度条卡住不动,查看日志发现关键报错: No Route to Host from BigData01/192.168.100.128 to BigData03:44620 failed on 这个看似简单的网络错误,背后隐藏着 Hadoop 集群通信的核心逻辑。本文将结合生产环境实战经验,带大家抽丝剥茧解决问题,文末附完整排查脚本!
兔子坨坨2 个月前
大数据·hadoop·hdfs·big data
详细了解HDFS完全分布式集群搭建HDFS的Shell操作HDFS的块的概念HDFS的工作机制HDFS的读写流程完全分布式集群搭建
姬激薄3 个月前
大数据·hadoop·hdfs
HDFS概述HDFS(Hadoop Distributed File System)是 Apache Hadoop 生态系统的核心组件之一,专为存储超大规模数据并在商用硬件集群上高效运行而设计。以下是其核心概念、架构和特点的全面概述: