技术栈
hadoop
KANGBboy
4 小时前
大数据
·
hadoop
·
分布式
hadoop冷热数据分离
将Hive表的历史数据从三副本改为单副本,以节省存储空间 对于历史数据的副本数调整,修改全局配置后(hdfs-site.xml中的dfs.replication默认副本数)只影响设置生效后新写入的数据。历史数据的副本数不会改变,必须手动执行命令来降低。另外只是对历史数据进行副本减少,近期数据还是要保持三副本。
WL_Aurora
18 小时前
大数据
·
hadoop
·
yarn
YARN资源调度器深度解析 | 架构原理、作业提交流程
在前面的实验中,我们已经通过Shell命令和Web界面与YARN进行过交互,也利用YARN提交和监控过MapReduce作业。但YARN作为Hadoop生态的资源调度大脑,其底层架构和工作机制远比表面看到的复杂。本文将从YARN基础架构、作业提交流程、三大调度器对比和生产环境核心参数调优四个维度,结合架构图与源码逻辑,带你彻底掌握YARN的设计精髓。
vivo互联网技术
1 天前
大数据
·
hadoop
·
yarn
vivo 万台规模 YARN 集群升级实践
作者:互联网大数据团队-Wang Zhiwen 本文主要介绍了 vivo 大数据架构的演进历程中 YARN 服务的升级事项,从整体方案出发剖析每个环节遇到的问题难点并逐一分析讲解,对于研究调度器性能和从事大数据运维工作的同学具有较大的参考借鉴价值。
黄金矿工Kingliu
1 天前
大数据
·
服务器
·
hadoop
经典hadoop案例应用(命令实现版)
1.wordcount 词频hadoop jar ./share/hadoop-example.jar wordcount /input /output
卷毛迷你猪
1 天前
大数据
·
hadoop
·
分布式
小肥柴的Hadoop之旅 快速实验篇(0-1)虚拟机模拟完全分布式环境搭建
(1)目标:在本地 VMware 虚拟机中搭建 5 节点完全分布式 Hadoop 3.3.6 集群(1主 + 1备 + 3工作),并打通后续扩展 ZooKeeper、Kafka、Spark 的基础。 (2)适用环境:Windows 宿主机 + VMware Workstation Pro 17 + Ubuntu Server 22.04 LTS。 【注】所有软件均从国内清华镜像站获取。
飞火流星02027
1 天前
大数据
·
hadoop
·
分布式
·
hadoop3.1.1集群安装
·
hive3.1.0安装
Hadoop3.1.1集群+Hive3.1.0环境安装
- Cent OS 7.9 官方下载地址:CentOS-7-x86_64-DVD-2009.iso- Hadoop 3.1.1 官方下载地址:Hadoop 3.1.1
咖啡里的茶i
2 天前
hadoop
·
docker
·
容器
在Docker环境中安装Hadoop cluster 实验报告一
班 级:物联网2303 学 号:231040700302 姓 名:杜子健1.1 Docker Desktop 安装与配置
白日与明月
2 天前
数据仓库
·
hive
·
hadoop
Hive分桶机制应用
业务背景:解决办法:新表设计:动态分区分桶设计的4条核心原则:1: 确定分桶键✅ 优先候选❌ 绝对不要
水火既济__
2 天前
hive
·
hadoop
·
json
hive中加载json数据建表(大规模)
create table test_db1.tb_json_test2 ( device string, deviceType string, signal double, time bigint ) row format serde ‘org.apache.hive.hcatalog.data.JsonSerDe’;
Volunteer Technology
3 天前
大数据
·
hadoop
·
hdfs
HDFS源码(二)
“chooseTargetInOrder”方法代码逻辑为block 副本找到存储节点的策略,然后返回block所在的第一个节点,首先第一个block存储在本机,第二个block存储在远程机架,第三个副本存储时先判断是否第一个副本和第二个副本是否在同一机架,如果在同一机架,那么第三个副本选择不同机架进行存储,否则选择与第二个副本相同机架的随机节点进行存储。最终该方法返回存储第一个副本的DataNode节点。
WL_Aurora
3 天前
大数据
·
hadoop
·
mapreduce
MapReduce框架原理深度解析 | Shuffle机制、切片分区、Join全攻略
作为大数据开发者,深入理解MapReduce的框架原理至关重要。本文将从InputFormat数据输入、Shuffle机制、Partition分区、Combiner合并、Join应用和数据压缩六大核心模块,结合源码与架构图,带你彻底搞懂MapReduce的底层设计。
赵渝强老师
3 天前
大数据
·
hadoop
·
分布式
【赵渝强老师】Hadoop的伪分布部署模式
Hadoop的安装和部署是大数据生态圈体系中最麻烦的一个。Hadoop部署完成后,进一步地部署Spark和Flink就非常容易了。Hadoop的部署模式分为本地模式、伪分布模式和全分布模式。在学习完成了ZooKeeper的相关内容后,还将进一步地学习Hadoop HA的部署。这里重点讨论一下Hadoop的伪分布部署模式。
Volunteer Technology
3 天前
大数据
·
hadoop
·
hdfs
HDFS源码(一)
RPC(Remote Procedure Call,远程过程调用)是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议,通过RPC 能让应用层可以像调用本地方法一样调用远程方法。Hadoop中各个节点之间的通信就是通过RPC 进行通信。
WL_Aurora
4 天前
大数据
·
hadoop
·
hdfs
HDFS底层原理深度解析 | 读写流程、NameNode工作机制、DataNode心跳与数据完整性
作为大数据开发者,深入理解HDFS的底层原理至关重要。本文将从读写数据流程、NameNode与SecondaryNameNode工作机制、DataNode心跳与数据完整性三个核心维度,结合源码与架构图,带你彻底搞懂HDFS的设计哲学。
m0_71625500
4 天前
大数据
·
hadoop
·
面试
二、Hadoop 面试必背 | 三、Hive 面试必背
副本机制默认 3 副本;同节点不存多副本,同机架存一份,跨机架存副本,兼顾容错与网络开销。元数据记录文件路径、大小、权限、数据块存放位置;存于 NameNode 本地磁盘 + 内存。
Volunteer Technology
4 天前
大数据
·
hadoop
·
hdfs
HDFS扩缩容及数据迁移
在HDFS中可以通过黑名单、白名单机制进行节点管理,决定数据可以复制/不可以复制到哪些节点。黑名单通常是指在HDFS中被标记为不可用或不可访问的节点列表,这些节点可能由于硬件故障、网络问题或其他原因而暂时或永久性地无法使用。当一个节点被加入黑名单时,HDFS会避免将新的数据块复制到该节点上,同时也会尝试移动现有的数据块副本到其他可用节点上,以确保数据的可靠性和可用性。
Volunteer Technology
5 天前
大数据
·
hadoop
·
分布式
Hadoop NameNode HA
在Hadoop1中NameNode存在一个单点故障问题,如果NameNode所在的机器发生故障,整个集群就将不可用(Hadoop1中虽然有个SecorndaryNameNode,但是它并不是NameNode的备份,它只是NameNode的一个助理,协助NameNode工作,SecorndaryNameNode会对fsimage和edits文件进行合并,并推送给NameNode,防止因edits文件过大,导致NameNode重启变慢),这是Hadoop1的不可靠实现。
大大大大晴天
5 天前
hadoop
·
flink
Flink集群跨机房容灾:HDFS 快照权限踩坑与实践
在生产环境下,我们搭建了Flink-k8s集群,为不同项目用户的Flink作业运行提供了实时计算资源。为了避免主机房发生不可抗力故障(断电、网络分区、硬件批量损坏)而引发状态丢失或数据不一致问题,我们需要建设Flink集群的容灾备份能力,即建设灾备机房的Flink-k8s集群、主机房Flink集群作业的状态备份同步。
Volunteer Technology
5 天前
大数据
·
hadoop
·
分布式
Hadoop Federation 联邦
从上图中,我们可以很明显地看出现有的HDFS数据管理,数据存储2层分层的结构。也就是说,所有关于存储数据的信息和管理是放在NameNode这边,而真实数据的存储则是在各个DataNode下。而这些隶属于同一个NameNode,所管理的数据都是在同一个命名空间下的“NS”,以上结构是一个NameNode管理集群中所有元数据信息。
Volunteer Technology
6 天前
大数据
·
hadoop
·
hdfs
Hadoop之HDFS集群搭建与操作(二)
按照以下步骤在node1节点上安装JDK8。1) 在node1节点创建/software目录,上传并安装jdk8 rpm包** rpm -ivh /software/jdk-8u181-linux-x64.rpm