hdfs

知识分享小能手10 小时前
hadoop·学习·hdfs
Hadoop学习教程,从入门到精通, HDFS分布式文件系统 — 完整知识点与案例代码(3)HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的核心子项目,是一个分布式、可扩展、高容错的文件系统。
Eileen Seligman3 天前
大数据·hadoop·hdfs·ctf·rce
0CTF/TCTF 2023 OLAPInfra Nashorn RCE + HDFS UDF RCEClickHouse:是一个开源的列式数据库管理系统clickhouse-jdbc-bridge:clickhouse数据库和jdbc交互的工具
Sonnie0000001(马库斯)3 天前
大数据·hadoop·hdfs
【Hadoop之HDFS替换方案】【Haoop远程挂载Cubefs】Cubefs对接Hadoop生态为了解决Hadoop存算一体带来的问题,我对Hadoop的存算分离做了方案尝试,使用Cubefs替换现有的HDFS,相当于Hadoop的存储远程挂载,下面是踩坑记录。 官方参考链接
好问者3 天前
大数据·hadoop·hdfs
【大数据】:hdfs相关进程启停管理命令HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群执行原理:在执行此脚本的机器上,启动SecondaryNameNode
冷色调的咖啡师6 天前
大数据·linux·hadoop·hdfs·zookeeper·yarn
4.大数据高可用高可用是为了保障重要的数据完整性,namenode宕机会导致集群不可用,如果节点数据丢失会导致整个集群数据丢失,namenode作为数据存储节点是HDFS核心而后者又是Hadoop的核心组件,所以namenode的高可用是Hadoop高可用的重要组成部分
冷色调的咖啡师6 天前
大数据·linux·hadoop·分布式·hdfs·架构·yarn
1.大数据架构技术 上——搭建分布式Hadoop集群单机:在一台机器上部署 伪分布式:在一台机器上部署,区分多个角色管理 完全分布式:多台机器节点组成集群,不同角色部署在不同机器上
杨云龙UP17 天前
linux·运维·服务器·数据库·hdfs·apache
Linux 根分区被日志吃满?一次 58G Broker 日志清理实战_2026-05-20巡检服务器磁盘空间时,发现某台服务器根分区 / 使用率偏高。执行查看:输出如下:这里需要注意:/home 是单独挂载的网络存储,不占用根分区空间。 所以本次排查重点是根分区 / 本身。
m0_6393107917 天前
java·大数据·jvm·hadoop·spring·hdfs·eclipse
大数据技术原理-HDFS的安装与应用本实验报告详细记录了“大数据技术原理”课程中的HDFS(Hadoop分布式文件系统)实验。实验环境基于Ubuntu操作系统,Hadoop框架,以及开发工具JDK和Eclipse。实验内容涵盖了Hadoop的启动、HDFS命令的操作,包括目录的创建、文件的查看、复制、移动和删除,以及通过Java应用程序与HDFS的交互。实验中,解决了运行HDFS时的启动顺序问题,以及如何验证Java应用程序与HDFS交互后文件的生成情况。通过本次实验,深入了解了HDFS的基本命令及其作用,掌握了在Hadoop平台上进行文件
我思故我在789617 天前
大数据·hadoop·hdfs
hdfs文件系统HDFS在Hadoop中的作用是为海量的数据提供了存储,能提供高吞吐量的数据访问,HDFS有高容错性的 特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着 超大数据集的应用程序。 对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。 但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个,HA两个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储
大连赵哥17 天前
hadoop·分布式·hdfs
分布式文件存储系统:Hadoop HDFSHadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个分布式文件系统,它被设计用来在普通硬件上运行,提供高吞吐量来访问应用程序数据,非常适合大规模数据集的存储。HDFS 是 Apache Hadoop 项目的一部分,通常与 Hadoop MapReduce 计算模型一起使用,以支持大数据处理任务。
老卢聊运维17 天前
大数据·运维·hdfs
kdc-server部署kerberos认证服务端客户端cat /etc/krb5.confcat /var/kerberos/krb5kdc/kdc.conf
王小王-12317 天前
hive·hadoop·hdfs·服装电商分析·服装大数据
基于Hadoop的服装电商数据分析系统【Hdfs、flume、HIve、sqoop、MySQL、echarts】本研究基于服装电商用户行为的开源数据展开大数据分析研究,通过Hadoop大数据分析平台对某大型服装电商平台公开的开源数据集进行多维度的用户行为分析,为服装电商销售提供可行性决策。
卷毛迷你猪1 个月前
大数据·hadoop·hdfs
快速实验篇(A1)干旱气象数据上传至HDFS(1)本实验是Hadoop完全分布式集群的入门操作,目标是理解HDFS的存储原理。(2)业务背景是将US Drought & Meteorological Data测试集(2012-2020年)的原始JSON数据转换为结构化CSV,上传至HDFS,并观察分布式存储的物理实现。
小的~~1 个月前
hive·hdfs·kafka
CentOS7安装CDH6.3.2
Volunteer Technology1 个月前
大数据·hadoop·hdfs
HDFS源码(二)“chooseTargetInOrder”方法代码逻辑为block 副本找到存储节点的策略,然后返回block所在的第一个节点,首先第一个block存储在本机,第二个block存储在远程机架,第三个副本存储时先判断是否第一个副本和第二个副本是否在同一机架,如果在同一机架,那么第三个副本选择不同机架进行存储,否则选择与第二个副本相同机架的随机节点进行存储。最终该方法返回存储第一个副本的DataNode节点。
Volunteer Technology1 个月前
大数据·hadoop·hdfs
HDFS源码(一)RPC(Remote Procedure Call,远程过程调用)是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议,通过RPC 能让应用层可以像调用本地方法一样调用远程方法。Hadoop中各个节点之间的通信就是通过RPC 进行通信。
WL_Aurora1 个月前
大数据·hadoop·hdfs
HDFS底层原理深度解析 | 读写流程、NameNode工作机制、DataNode心跳与数据完整性作为大数据开发者,深入理解HDFS的底层原理至关重要。本文将从读写数据流程、NameNode与SecondaryNameNode工作机制、DataNode心跳与数据完整性三个核心维度,结合源码与架构图,带你彻底搞懂HDFS的设计哲学。
Volunteer Technology1 个月前
大数据·hadoop·hdfs
HDFS扩缩容及数据迁移在HDFS中可以通过黑名单、白名单机制进行节点管理,决定数据可以复制/不可以复制到哪些节点。黑名单通常是指在HDFS中被标记为不可用或不可访问的节点列表,这些节点可能由于硬件故障、网络问题或其他原因而暂时或永久性地无法使用。当一个节点被加入黑名单时,HDFS会避免将新的数据块复制到该节点上,同时也会尝试移动现有的数据块副本到其他可用节点上,以确保数据的可靠性和可用性。
大大大大晴天️1 个月前
大数据·hdfs·flink
Flink集群跨机房容灾:HDFS 快照权限踩坑与实践在生产环境下,我们搭建了Flink-k8s集群,为不同项目用户的Flink作业运行提供了实时计算资源。为了避免主机房发生不可抗力故障(断电、网络分区、硬件批量损坏)而引发状态丢失或数据不一致问题,我们需要建设Flink集群的容灾备份能力,即建设灾备机房的Flink-k8s集群、主机房Flink集群作业的状态备份同步。
Volunteer Technology1 个月前
大数据·hadoop·hdfs
Hadoop之HDFS集群搭建与操作(二)按照以下步骤在node1节点上安装JDK8。1) 在node1节点创建/software目录,上传并安装jdk8 rpm包** rpm -ivh /software/jdk-8u181-linux-x64.rpm