hdfs

卷毛迷你猪8 小时前
大数据·hadoop·hdfs
快速实验篇(A1)干旱气象数据上传至HDFS(1)本实验是Hadoop完全分布式集群的入门操作,目标是理解HDFS的存储原理。(2)业务背景是将US Drought & Meteorological Data测试集(2012-2020年)的原始JSON数据转换为结构化CSV,上传至HDFS,并观察分布式存储的物理实现。
小的~~11 小时前
hive·hdfs·kafka
CentOS7安装CDH6.3.2
Volunteer Technology4 天前
大数据·hadoop·hdfs
HDFS源码(二)“chooseTargetInOrder”方法代码逻辑为block 副本找到存储节点的策略,然后返回block所在的第一个节点,首先第一个block存储在本机,第二个block存储在远程机架,第三个副本存储时先判断是否第一个副本和第二个副本是否在同一机架,如果在同一机架,那么第三个副本选择不同机架进行存储,否则选择与第二个副本相同机架的随机节点进行存储。最终该方法返回存储第一个副本的DataNode节点。
Volunteer Technology4 天前
大数据·hadoop·hdfs
HDFS源码(一)RPC(Remote Procedure Call,远程过程调用)是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议,通过RPC 能让应用层可以像调用本地方法一样调用远程方法。Hadoop中各个节点之间的通信就是通过RPC 进行通信。
WL_Aurora5 天前
大数据·hadoop·hdfs
HDFS底层原理深度解析 | 读写流程、NameNode工作机制、DataNode心跳与数据完整性作为大数据开发者,深入理解HDFS的底层原理至关重要。本文将从读写数据流程、NameNode与SecondaryNameNode工作机制、DataNode心跳与数据完整性三个核心维度,结合源码与架构图,带你彻底搞懂HDFS的设计哲学。
Volunteer Technology5 天前
大数据·hadoop·hdfs
HDFS扩缩容及数据迁移在HDFS中可以通过黑名单、白名单机制进行节点管理,决定数据可以复制/不可以复制到哪些节点。黑名单通常是指在HDFS中被标记为不可用或不可访问的节点列表,这些节点可能由于硬件故障、网络问题或其他原因而暂时或永久性地无法使用。当一个节点被加入黑名单时,HDFS会避免将新的数据块复制到该节点上,同时也会尝试移动现有的数据块副本到其他可用节点上,以确保数据的可靠性和可用性。
大大大大晴天️6 天前
大数据·hdfs·flink
Flink集群跨机房容灾:HDFS 快照权限踩坑与实践在生产环境下,我们搭建了Flink-k8s集群,为不同项目用户的Flink作业运行提供了实时计算资源。为了避免主机房发生不可抗力故障(断电、网络分区、硬件批量损坏)而引发状态丢失或数据不一致问题,我们需要建设Flink集群的容灾备份能力,即建设灾备机房的Flink-k8s集群、主机房Flink集群作业的状态备份同步。
Volunteer Technology7 天前
大数据·hadoop·hdfs
Hadoop之HDFS集群搭建与操作(二)按照以下步骤在node1节点上安装JDK8。1) 在node1节点创建/software目录,上传并安装jdk8 rpm包** rpm -ivh /software/jdk-8u181-linux-x64.rpm
Volunteer Technology7 天前
大数据·hadoop·hdfs
Hadoop之HDFS shell操作篇
WL_Aurora8 天前
大数据·hadoop·hdfs
HDFS基础编程常用命令HDFS(Hadoop Distributed File System)是Hadoop生态系统的核心组件,专为海量数据存储设计,具有高容错性、高扩展性、高吞吐量的特点。本次实验围绕HDFS的三大操作方式展开:Shell命令交互、Web界面管理和Java API编程,帮助你从命令行到代码层面全面掌握HDFS的使用。
二十六画生的博客12 天前
大数据·hadoop·hdfs·flink
每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?不会自动把 10 个 Subtask 的小快照,合并成一个大文件10 个并行度,就是 HDFS 上 10 份独立快照目录 / 文件,永远保持分开,不合并。
千月落12 天前
大数据·hadoop·hdfs
HDFS数据迁移这里记录一次迁移HDFS数据的过程 需求:从A私有云hadoop2.10.2集群将所有数据迁移到B私有云HDFS集群hadoop 3.3.6 限制:网络限制,只能申请开通A集群的一个端口14000供B集群访问 方案:在目的集群B上 使用 dictcp 命令 A集群启动 HttpFS 服务作为代理,使用 WebHDFS 协议请求数据,每次迁移一级目录中的一个目录。 完成情况:整个集群有2T的数据,迁移总耗时8天,这个速度还能提升,因为一直有个连接超时导致任务卡顿的问题没有解决。
WL_Aurora15 天前
hadoop·hdfs
Hadoop 通过 Web 界面上传文件到 HDFS 失败解决方案最近在复用一个之前搭建好的大数据测试平台时,发现通过 HDFS 的 Web 界面上传文件失败了,浏览器报错如下:
菜鸟小码18 天前
大数据·hadoop·hdfs
HDFS 数据块(Block)机制深度解析:从原理到实战💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝💝💝如有需要请大家订阅我的专栏【大数据系列】哟!我会定期更新相关系列的文章 💝💝💝关注!关注!!请关注!!!请大家关注下博主,您的支持是我不断创作的最大动力!!!
菜鸟小码18 天前
大数据·hadoop·hdfs
HDFS 常用命令大全:从入门到生产实战💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝💝💝如有需要请大家订阅我的专栏【大数据系列】哟!我会定期更新相关系列的文章 💝💝💝关注!关注!!请关注!!!请大家关注下博主,您的支持是我不断创作的最大动力!!!
hINs IONN1 个月前
hadoop·hdfs·架构
深入解析HDFS:定义、架构、原理、应用场景及常用命令Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)是Hadoop框架的核心组件之一,它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨,帮助读者全面深入地了解HDFS。
zhixingheyi_tian1 个月前
c语言·hadoop·hdfs
hdfs.c 之解析hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/fs/FSDataInputStream.java
顧棟1 个月前
大数据·hadoop·hdfs
HDFS2.X升级3.X案例与相关Issue
tumeng07112 个月前
hadoop·hdfs·架构
HDFS的架构优势与基本操作如今,数据正以指数级增长,各行各业都在追求更多的数据存储、高效的数据处理和可靠的数据基础来驱动业务的发展。Hadoop Distributed File System(HDFS)作为Hadoop生态系统的核心组件之一,成为构建可靠的大数据基础的不二选择之一。本文将深入剖析HDFS的架构与优势。
sunxunyong2 个月前
大数据·hadoop·hdfs
HDFS nnsdy重新配置启动1、hdfs进入safemode安全模式 在active nn节点执行:hdfs dfsadmin -safemode enter 2、全量生产fsiamge文件 在active节点执行:hdfs dfsadmin -saveNamespace 3、在active节点执行hdfs dfsadmin -safemode leave 4、处理standby nn 先清空standby nn节点/data1/hadoop/hdfs/namenode/current/目录和/data2/hadoop/hdfs/n