hdfs

makise-14 天前
大数据·hdfs·架构
破译大数据底层密码:从 HDFS 存储基石到现代分布式计算引擎的架构演进在互联网业务呈爆发式增长的今天,企业每天产生的数据量已经从 GB 级跃升到了 TB 级甚至 PB 级。传统的单机存储与集中式数据库,在面对如此海量的数据时,无论是从磁盘容量、I/O 读写速度还是计算能力上,都早已触及了物理瓶颈。
abcy07121316 天前
python·hdfs·flask
flask celery hdfs 异步上传在Flask和Celery环境下实现异步上传文件到HDFS(Hadoop Distributed File System)的功能,可以大大提高Web应用的性能和用户体验。以下是一个详细的步骤和代码示例,帮助你实现这一功能。
abcy07121316 天前
python·hdfs·fastapi
python fastapi celery hdfs 异步上传在Python中使用FastAPI和Celery结合HDFS(Hadoop Distributed File System)进行异步上传图文教程,可以分为以下几个步骤来实现:
abcy07121316 天前
python·hdfs
python InsecureClient 上传下载查看删除实例使用 hdfs 库中的 InsecureClient 操作 HDFS,需先安装依赖:pip install hdfs。以下实例涵盖连接、上传、下载、查看(列表/状态/内容)及删除操作 。‌‌
知识分享小能手21 天前
hadoop·学习·hdfs
Hadoop学习教程,从入门到精通, HDFS分布式文件系统 — 完整知识点与案例代码(3)HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的核心子项目,是一个分布式、可扩展、高容错的文件系统。
Eileen Seligman23 天前
大数据·hadoop·hdfs·ctf·rce
0CTF/TCTF 2023 OLAPInfra Nashorn RCE + HDFS UDF RCEClickHouse:是一个开源的列式数据库管理系统clickhouse-jdbc-bridge:clickhouse数据库和jdbc交互的工具
Sonnie0000001(马库斯)23 天前
大数据·hadoop·hdfs
【Hadoop之HDFS替换方案】【Haoop远程挂载Cubefs】Cubefs对接Hadoop生态为了解决Hadoop存算一体带来的问题,我对Hadoop的存算分离做了方案尝试,使用Cubefs替换现有的HDFS,相当于Hadoop的存储远程挂载,下面是踩坑记录。 官方参考链接
好问者23 天前
大数据·hadoop·hdfs
【大数据】:hdfs相关进程启停管理命令HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群执行原理:在执行此脚本的机器上,启动SecondaryNameNode
冷色调的咖啡师1 个月前
大数据·linux·hadoop·hdfs·zookeeper·yarn
4.大数据高可用高可用是为了保障重要的数据完整性,namenode宕机会导致集群不可用,如果节点数据丢失会导致整个集群数据丢失,namenode作为数据存储节点是HDFS核心而后者又是Hadoop的核心组件,所以namenode的高可用是Hadoop高可用的重要组成部分
冷色调的咖啡师1 个月前
大数据·linux·hadoop·分布式·hdfs·架构·yarn
1.大数据架构技术 上——搭建分布式Hadoop集群单机:在一台机器上部署 伪分布式:在一台机器上部署,区分多个角色管理 完全分布式:多台机器节点组成集群,不同角色部署在不同机器上
杨云龙UP1 个月前
linux·运维·服务器·数据库·hdfs·apache
Linux 根分区被日志吃满?一次 58G Broker 日志清理实战_2026-05-20巡检服务器磁盘空间时,发现某台服务器根分区 / 使用率偏高。执行查看:输出如下:这里需要注意:/home 是单独挂载的网络存储,不占用根分区空间。 所以本次排查重点是根分区 / 本身。
m0_639310791 个月前
java·大数据·jvm·hadoop·spring·hdfs·eclipse
大数据技术原理-HDFS的安装与应用本实验报告详细记录了“大数据技术原理”课程中的HDFS(Hadoop分布式文件系统)实验。实验环境基于Ubuntu操作系统,Hadoop框架,以及开发工具JDK和Eclipse。实验内容涵盖了Hadoop的启动、HDFS命令的操作,包括目录的创建、文件的查看、复制、移动和删除,以及通过Java应用程序与HDFS的交互。实验中,解决了运行HDFS时的启动顺序问题,以及如何验证Java应用程序与HDFS交互后文件的生成情况。通过本次实验,深入了解了HDFS的基本命令及其作用,掌握了在Hadoop平台上进行文件
我思故我在78961 个月前
大数据·hadoop·hdfs
hdfs文件系统HDFS在Hadoop中的作用是为海量的数据提供了存储,能提供高吞吐量的数据访问,HDFS有高容错性的 特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着 超大数据集的应用程序。 对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。 但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个,HA两个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储
大连赵哥1 个月前
hadoop·分布式·hdfs
分布式文件存储系统:Hadoop HDFSHadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个分布式文件系统,它被设计用来在普通硬件上运行,提供高吞吐量来访问应用程序数据,非常适合大规模数据集的存储。HDFS 是 Apache Hadoop 项目的一部分,通常与 Hadoop MapReduce 计算模型一起使用,以支持大数据处理任务。
老卢聊运维1 个月前
大数据·运维·hdfs
kdc-server部署kerberos认证服务端客户端cat /etc/krb5.confcat /var/kerberos/krb5kdc/kdc.conf
王小王-1231 个月前
hive·hadoop·hdfs·服装电商分析·服装大数据
基于Hadoop的服装电商数据分析系统【Hdfs、flume、HIve、sqoop、MySQL、echarts】本研究基于服装电商用户行为的开源数据展开大数据分析研究,通过Hadoop大数据分析平台对某大型服装电商平台公开的开源数据集进行多维度的用户行为分析,为服装电商销售提供可行性决策。
卷毛迷你猪1 个月前
大数据·hadoop·hdfs
快速实验篇(A1)干旱气象数据上传至HDFS(1)本实验是Hadoop完全分布式集群的入门操作,目标是理解HDFS的存储原理。(2)业务背景是将US Drought & Meteorological Data测试集(2012-2020年)的原始JSON数据转换为结构化CSV,上传至HDFS,并观察分布式存储的物理实现。
小的~~1 个月前
hive·hdfs·kafka
CentOS7安装CDH6.3.2
Volunteer Technology2 个月前
大数据·hadoop·hdfs
HDFS源码(二)“chooseTargetInOrder”方法代码逻辑为block 副本找到存储节点的策略,然后返回block所在的第一个节点,首先第一个block存储在本机,第二个block存储在远程机架,第三个副本存储时先判断是否第一个副本和第二个副本是否在同一机架,如果在同一机架,那么第三个副本选择不同机架进行存储,否则选择与第二个副本相同机架的随机节点进行存储。最终该方法返回存储第一个副本的DataNode节点。
Volunteer Technology2 个月前
大数据·hadoop·hdfs
HDFS源码(一)RPC(Remote Procedure Call,远程过程调用)是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议,通过RPC 能让应用层可以像调用本地方法一样调用远程方法。Hadoop中各个节点之间的通信就是通过RPC 进行通信。