hadoop

Volunteer Technology5 小时前
大数据·hadoop·hdfs
HDFS源码(二)“chooseTargetInOrder”方法代码逻辑为block 副本找到存储节点的策略,然后返回block所在的第一个节点,首先第一个block存储在本机,第二个block存储在远程机架,第三个副本存储时先判断是否第一个副本和第二个副本是否在同一机架,如果在同一机架,那么第三个副本选择不同机架进行存储,否则选择与第二个副本相同机架的随机节点进行存储。最终该方法返回存储第一个副本的DataNode节点。
WL_Aurora6 小时前
大数据·hadoop·mapreduce
MapReduce框架原理深度解析 | Shuffle机制、切片分区、Join全攻略作为大数据开发者,深入理解MapReduce的框架原理至关重要。本文将从InputFormat数据输入、Shuffle机制、Partition分区、Combiner合并、Join应用和数据压缩六大核心模块,结合源码与架构图,带你彻底搞懂MapReduce的底层设计。
赵渝强老师6 小时前
大数据·hadoop·分布式
【赵渝强老师】Hadoop的伪分布部署模式Hadoop的安装和部署是大数据生态圈体系中最麻烦的一个。Hadoop部署完成后,进一步地部署Spark和Flink就非常容易了。Hadoop的部署模式分为本地模式、伪分布模式和全分布模式。在学习完成了ZooKeeper的相关内容后,还将进一步地学习Hadoop HA的部署。这里重点讨论一下Hadoop的伪分布部署模式。
Volunteer Technology6 小时前
大数据·hadoop·hdfs
HDFS源码(一)RPC(Remote Procedure Call,远程过程调用)是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议,通过RPC 能让应用层可以像调用本地方法一样调用远程方法。Hadoop中各个节点之间的通信就是通过RPC 进行通信。
WL_Aurora1 天前
大数据·hadoop·hdfs
HDFS底层原理深度解析 | 读写流程、NameNode工作机制、DataNode心跳与数据完整性作为大数据开发者,深入理解HDFS的底层原理至关重要。本文将从读写数据流程、NameNode与SecondaryNameNode工作机制、DataNode心跳与数据完整性三个核心维度,结合源码与架构图,带你彻底搞懂HDFS的设计哲学。
m0_716255001 天前
大数据·hadoop·面试
二、Hadoop 面试必背 | 三、Hive 面试必背副本机制默认 3 副本;同节点不存多副本,同机架存一份,跨机架存副本,兼顾容错与网络开销。元数据记录文件路径、大小、权限、数据块存放位置;存于 NameNode 本地磁盘 + 内存。
Volunteer Technology1 天前
大数据·hadoop·hdfs
HDFS扩缩容及数据迁移在HDFS中可以通过黑名单、白名单机制进行节点管理,决定数据可以复制/不可以复制到哪些节点。黑名单通常是指在HDFS中被标记为不可用或不可访问的节点列表,这些节点可能由于硬件故障、网络问题或其他原因而暂时或永久性地无法使用。当一个节点被加入黑名单时,HDFS会避免将新的数据块复制到该节点上,同时也会尝试移动现有的数据块副本到其他可用节点上,以确保数据的可靠性和可用性。
Volunteer Technology2 天前
大数据·hadoop·分布式
Hadoop NameNode HA在Hadoop1中NameNode存在一个单点故障问题,如果NameNode所在的机器发生故障,整个集群就将不可用(Hadoop1中虽然有个SecorndaryNameNode,但是它并不是NameNode的备份,它只是NameNode的一个助理,协助NameNode工作,SecorndaryNameNode会对fsimage和edits文件进行合并,并推送给NameNode,防止因edits文件过大,导致NameNode重启变慢),这是Hadoop1的不可靠实现。
大大大大晴天2 天前
hadoop·flink
Flink集群跨机房容灾:HDFS 快照权限踩坑与实践在生产环境下,我们搭建了Flink-k8s集群,为不同项目用户的Flink作业运行提供了实时计算资源。为了避免主机房发生不可抗力故障(断电、网络分区、硬件批量损坏)而引发状态丢失或数据不一致问题,我们需要建设Flink集群的容灾备份能力,即建设灾备机房的Flink-k8s集群、主机房Flink集群作业的状态备份同步。
Volunteer Technology2 天前
大数据·hadoop·分布式
Hadoop Federation 联邦从上图中,我们可以很明显地看出现有的HDFS数据管理,数据存储2层分层的结构。也就是说,所有关于存储数据的信息和管理是放在NameNode这边,而真实数据的存储则是在各个DataNode下。而这些隶属于同一个NameNode,所管理的数据都是在同一个命名空间下的“NS”,以上结构是一个NameNode管理集群中所有元数据信息。
Volunteer Technology3 天前
大数据·hadoop·hdfs
Hadoop之HDFS集群搭建与操作(二)按照以下步骤在node1节点上安装JDK8。1) 在node1节点创建/software目录,上传并安装jdk8 rpm包** rpm -ivh /software/jdk-8u181-linux-x64.rpm
Volunteer Technology3 天前
大数据·hadoop·hdfs
Hadoop之HDFS shell操作篇
青春万岁!!3 天前
大数据·数据仓库·hive·hadoop
hive 动态分区参数设置错误导致数据不稳定昨天下班前同事遇到个问题来问我,sap的一个dwr模型数据有时候正常有时候异常,看了调度作业日志都正常,也是在上游dwi跑完以后再执行的。 上游dwi是1点多刷新的数据,dwr是3点多才开始。 为啥他手动跑一下又正常了??
大大大大晴天️4 天前
大数据·hadoop·安全
浅聊Hadoop集群的主流安全方案(LDAP+Kerberos+Ranger)Hadoop集群的完整安全体系建立在“认证→授权→审计”三层架构之上,LDAP、Kerberos和Ranger分别承担不同职责,三者协同形成闭环:
roman_日积跬步-终至千里4 天前
数据仓库·hive·hadoop
为什么 Hive 无法通过同步 JDBC 导出百万级数据?核心结论: 并非 Hive 性能差,而是其 JDBC 通信协议与 MySQL 存在本质区别。 在 Hive 的协议模型下,同步导出百万行数据属于不可控系统,在工程数学意义上不成立; 而异步导出平台是唯一被物理模型允许的架构。
WL_Aurora4 天前
大数据·hadoop·hdfs
HDFS基础编程常用命令HDFS(Hadoop Distributed File System)是Hadoop生态系统的核心组件,专为海量数据存储设计,具有高容错性、高扩展性、高吞吐量的特点。本次实验围绕HDFS的三大操作方式展开:Shell命令交互、Web界面管理和Java API编程,帮助你从命令行到代码层面全面掌握HDFS的使用。
大大大大晴天4 天前
大数据·hadoop
浅聊Hadoop集群的主流安全方案(LDAP+Kerberos+Ranger)Hadoop集群的完整安全体系建立在“认证→授权→审计”三层架构之上,LDAP、Kerberos和Ranger分别承担不同职责,三者协同形成闭环:
roman_日积跬步-终至千里4 天前
数据仓库·hive·hadoop
Hive JDBC vs MySQL JDBC:**“服务端推完就跑,客户端慢慢吃”**详解一句话理解:MySQL服务端执行完查询后,会一次性把所有结果通过TCP流式推送给客户端,然后立刻解放资源(推完就跑);客户端收到后本地慢慢消费(慢慢吃),服务端完全不管客户端处理快慢。这就是传输解耦。
计算机毕业编程指导师5 天前
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡有什么问题可以在主页上或文末下联系咨询博客~~ ⚡⚡Java、Python、小程序、大数据实战项目集](https://blog.csdn.net/2301_80395604/category_12487856.html)
计算机毕业编程指导师5 天前
大数据·hadoop·python·计算机·数据挖掘·spark·django
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡有什么问题可以在主页上或文末下联系咨询博客~~ ⚡⚡Java、Python、小程序、大数据实战项目集](https://blog.csdn.net/2301_80395604/category_12487856.html)