技术栈
hadoop
二十六画生的博客
25 分钟前
大数据
·
hadoop
·
hdfs
·
flink
每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?
每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?不会自动把 10 个 Subtask 的小快照,合并成一个大文件10 个并行度,就是 HDFS 上 10 份独立快照目录 / 文件,永远保持分开,不合并。
千月落
2 小时前
大数据
·
hadoop
·
hdfs
HDFS数据迁移
这里记录一次迁移HDFS数据的过程 需求:从A私有云hadoop2.10.2集群将所有数据迁移到B私有云HDFS集群hadoop 3.3.6 限制:网络限制,只能申请开通A集群的一个端口14000供B集群访问 方案:在目的集群B上 使用 dictcp 命令 A集群启动 HttpFS 服务作为代理,使用 WebHDFS 协议请求数据,每次迁移一级目录中的一个目录。 完成情况:整个集群有2T的数据,迁移总耗时8天,这个速度还能提升,因为一直有个连接超时导致任务卡顿的问题没有解决。
隐于花海,等待花开
1 天前
hive
·
hadoop
40.RAND 函数深度解析
RAND 是 Hive SQL 中最常用的随机数生成函数。它在数据抽样、随机排序、数据混淆、测试数据生成等场景中扮演着不可或缺的角色。理解其伪随机数生成机制、确定性序列特性以及在不同抽样方式下的性能差异,是高效使用该函数的关键。
隐于花海,等待花开
2 天前
hive
·
hadoop
39.ROUND / FLOOR / CEIL 函数深度解析
ROUND、FLOOR 和 CEIL 是 Hive SQL 中最基础的三个数值舍入函数,分别对应四舍五入、向下取整和向上取整。它们在数据处理、数值计算和报表生成中扮演着不可或缺的角色。
坚持就完事了
3 天前
大数据
·
linux
·
hadoop
·
学习
YARN资源管理器
yarn-site.xml是YARN(Yet Another Resource Negotiator,另一种资源协调者)框架的核心配置文件,它定义了整个YARN集群的运行参数和行为。类似于操作系统的“注册表”或“系统设置”.
渣渣盟
3 天前
大数据
·
hadoop
·
python
·
flink
·
spark
大数据技术栈全景图:从零到一的入门路线(深度实战版)
上一篇全景图帮你建立了概念地图,但概念就像地图上的等高线——它告诉你去哪里,却无法让你感受到攀爬时的呼吸。大数据真正的门槛不在于“知道有 Spark、Flink 这些名词”,而在于 “亲手在集群上跑过一个倾斜的 Job,亲眼看到 OOM 日志,然后一步步把执行时间从 2 小时压到 5 分钟” 。本篇博客就是为你准备的攀岩绳和支点:我们将沿着相同的大纲,用代码和实操细节填充每一个核心环节,让知识成为你手指上的肌肉记忆。
WL_Aurora
3 天前
hadoop
·
hdfs
Hadoop 通过 Web 界面上传文件到 HDFS 失败解决方案
最近在复用一个之前搭建好的大数据测试平台时,发现通过 HDFS 的 Web 界面上传文件失败了,浏览器报错如下:
ClouderaHadoop
4 天前
hadoop
·
hbase
·
kerberos
·
cloudera
·
cdh
CDH 最隐蔽的坑:NTP 时间同步导致的 5 类故障
在做 Cloudera CDH 集群运维时,有一类问题非常“玄学”:很多人第一反应是:网络?权限?版本?
Gent_倪
4 天前
大数据
·
hadoop
Hadoop生态组件介绍
组件名称作用说明HDFS (Hadoop Distributed File System)分布式文件系统,Hadoop 核心存储,将超大文件切块(默认128MB),多副本存储在不同节点上,保证数据高容错和高吞吐。
YaBingSec
4 天前
大数据
·
数据库
·
hadoop
·
redis
·
笔记
·
分布式
·
web安全
玄机网络安全靶场:Hadoop YARN ResourceManager 未授权 RCE WP
题目名称:Hadoop YARN ResourceManager(Unauthorized) 难度:简单 分类:渗透 Flag:flag{41d1290e-e2d2-4028-85ce-43909a1787c4}
曹牧
5 天前
java
·
数据仓库
·
hive
·
hadoop
Java Web 开发:servlet-mapping
在 Java Web 开发中,servlet-mapping 是用于将特定的 URL 路径映射到对应的 Servlet 类的关键配置元素。它定义了客户端请求的 URL 与服务器端处理该请求的 Servlet 之间的对应关系。 核心作用
菜鸟小码
6 天前
大数据
·
hadoop
·
hdfs
HDFS 数据块(Block)机制深度解析:从原理到实战
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝💝💝如有需要请大家订阅我的专栏【大数据系列】哟!我会定期更新相关系列的文章 💝💝💝关注!关注!!请关注!!!请大家关注下博主,您的支持是我不断创作的最大动力!!!
早睡早起早日毕业
6 天前
大数据
·
hadoop
·
架构
大数据管理与应用系列丛书《大数据平台架构》之第4章 Hadoop 分布式文件系统 (HDFS)
教材来源:《大数据平台架构》 章节:第4章 Hadoop 分布式文件系统 (HDFS) 主编:吕欣、黄宏斌 关键词:NameNode, DataNode, 倒排索引, 纠删码, HA
早睡早起早日毕业
6 天前
大数据
·
hadoop
·
分布式
·
架构
大数据管理与应用系列丛书《大数据平台架构》之第2章 分布式理论基础:大数据系统的架构基石
书目信息:《大数据平台架构》 章节:第2章 分布式理论基础 主编:吕欣、黄宏斌 关键词:SMR, CAP, PACELC, Paxos, Raft, PBFT, 视图切换
菜鸟小码
6 天前
大数据
·
hadoop
·
hdfs
HDFS 常用命令大全:从入门到生产实战
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝💝💝如有需要请大家订阅我的专栏【大数据系列】哟!我会定期更新相关系列的文章 💝💝💝关注!关注!!请关注!!!请大家关注下博主,您的支持是我不断创作的最大动力!!!
菜鸟小码
8 天前
大数据
·
hadoop
·
分布式
Hadoop大数据时代的底座和基石
说起大数据,很多人脑海中第一个浮现的就是Hadoop。但Hadoop到底是个啥?它是一个框架、一个生态,还是一种理念?这篇文章,带你一次性把Hadoop彻底搞清楚。
YJlio
9 天前
运维
·
hive
·
hadoop
·
windows
·
游戏
·
microsoft
·
计算机外设
1 4.1 微软商店的使用(Microsoft Store:下载/安装/管理应用与游戏)
当我需要装一些常见软件(比如聊天工具、效率工具、轻量小游戏)时,我现在越来越倾向于先去 Microsoft Store(微软商店) 看看。书里提到:在 Windows 11 中,我可以通过微软商店来 下载安装以及管理软件,包括各种应用软件和游戏;这些软件和游戏都经过微软审核,安全性更值得信任,而且新的微软商店也已经推广到 Windows 10。
sunxunyong
10 天前
hadoop
kyuubi 连接kerberos集群配置
kyuubi-defaults配置:kyuubi.engine.share.level = CONNECTION (必须为大写!) kinit与配置的keytab必须统一! kyuubi节点必须有这个keytab! kinit -kt XXXX.keytab XXXX@XX.COM /usr/dif/7.1.0-0/kyuubi/bin/beeline -u ‘jdbc:hive2://XXXX-17-70:2181,XXXX-17-71:2181,XXXX-17-80:2181/;serviceDisc
坚持就完事了
10 天前
hadoop
·
学习
Hadoop实战初步学习
在完全分布模式下,必须同时启动所有虚拟机和Hadoop服务,集群才能正常工作。Hadoop是一个“主从架构”的分布式系统,Master节点(NameNode, ResourceManager)本身不存储数据,也不执行计算任务。
It's Q
10 天前
hive
·
hadoop
·
学习
hive学习分区&&函数
在hdfs上创建文件夹string数据,需要添加单‘’不区分静态分区:先创建,再加载数据 动态分区:直接加载数据,根据数据动态创建分区 混合分区:有静态,还有动态,某个字段指定;