技术栈
hadoop
让头发掉下来
2 小时前
大数据
·
hive
·
hadoop
·
hbase
·
sqoop
Sqoop详细学习文档
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
非极限码农
1 天前
hive
·
hadoop
·
sql
Hive SQL (HQL) 编辑指南
Hive SQL(HQL)是基于Hive的数据仓库查询语言,语法类似标准SQL,但因Hive的离线大数据处理特性,存在一些特有规则和最佳实践。以下是Hive SQL的编辑指南,涵盖核心语法、注意事项和优化技巧:
非极限码农
1 天前
数据仓库
·
hive
·
hadoop
·
etl
Hive数仓部署/分层/ETL脚本基础指南
部署Hive数仓及分层基础指南部署和构建一个Hive数仓涉及多个步骤,包括设置Hadoop集群、配置Hive、设计数据仓库架构以及实现ETL(Extract, Transform, Load)过程。下面是一个详细的指南,帮助你完成这些步骤。
cici15874
1 天前
java
·
linux
·
hadoop
linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录
在Linux系统中,环境变量 HADOOP_HOME和 JAVA_HOME用于指示Hadoop和Java的安装路径。删除这些环境变量后,系统依然指向旧目录,通常是由于这些变量在多个地方设置,或未正确刷新环境变量。本文将探讨如何正确处理这个问题,并确保环境变量指向新的目录。
lifallen
1 天前
java
·
大数据
·
数据结构
·
hadoop
·
分布式
·
算法
hadoop.yarn 带时间的LRU 延迟删除
org.apache.hadoop.yarn.util.LRUCache这是一个在 Hadoop YARN 中被使用的、实现了最近最少使用(LRU)策略的缓存。它主要用于存储那些可以被重新计算或获取,但访问代价较高的数据,通过缓存来提升系统性能。
哈哈很哈哈
2 天前
大数据
·
hadoop
·
分布式
Hadoop JMX 配置的完整文档
Java Management Extensions(JMX)提供标准 API 监控 JVM 应用运行时状态(内存、线程、GC)及 Hadoop 组件指标(HDFS 容量、RPC 性能、节点状态)
jzy3711
2 天前
linux
·
hadoop
·
apache hive
国产化适配鲲鹏arm环境:hive on tez 单节点部署实践总结
本文详细指导如何在已安装Java的鲲鹏服务器环境下,从下载Hadoop开始,依次配置环境变量、YARN和HDFS设置,然后安装并配置Hive数据库和tez单机版,最后验证服务运行。涉及关键步骤如配置文件和启动服务。
wzy0623
3 天前
hadoop
·
impala
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(三)
目录三、Impala OLAP 实例1. 建立 olap 库、表、视图2. 初始装载数据3. 修改销售订单定期装载脚本
wzy0623
3 天前
hive
·
hadoop
·
impala
·
sparksql
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(二)
目录二、Hive、SparkSQL、Impala 比较1. SparkSQL 简介2. Hive、SparkSQL、Impala 比较
wzy0623
3 天前
hadoop
·
impala
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(一)
目录一、OLAP 与 Impala 简介1. OLAP 简介2. Impala 简介(1)Impala 是什么
wzy0623
3 天前
hadoop
·
hue
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(六)
目录六、Hue 数据可视化实例1. Impala 查询2. DB 查询3. 建立工作流本节先用 Impala、DB 查询示例说明 Hue 的数据查询和可视化功能,然后交互式地建立一个定期执行销售订单示例 ETL 任务的工作流,说明在 Hue 里是如何操作 Oozie 工作流引擎的。
喻师傅
4 天前
大数据
·
hadoop
·
分布式
·
sql
·
spark
Spark SQL 数组函数合集:array_agg、array_contains、array_sort…详解
官网: https://spark.apache.org/docs/latest/api/sql/index.html#array
LiRuiJie
5 天前
大数据
·
hadoop
·
flink
·
iceberg
·
flinkcdc
基于Hadoop3.3.4+Flink1.17.0+FlinkCDC3.0.0+Iceberg1.5.0整合,实现数仓实时同步mysql数据
验证:添加如下内容:验证:在两台机器都执行:添加:执行使其生效:假设 Hadoop 安装目录是 /opt/hadoop,配置文件在 $HADOOP_HOME/etc/hadoop/ 下。
cici15874
5 天前
hadoop
·
docker
·
eureka
Docker搭建Hadoop集群
搭建Hadoop集群是一个相对复杂的过程,涉及到多个步骤和配置。下面是一个基本的Docker搭建Hadoop集群的教程,供参考:
码字的字节
6 天前
hadoop
·
分布式
·
zookeeper
·
分布式锁
ZooKeeper在Hadoop中的协同应用:从NameNode选主到分布式锁实现
Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系作为大数据处理的基石,Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator)两大模块。HDFS采用主从架构设计,由NameNode负责元数据管理,DataNode存储实际数据块。这种设计使得Hadoop能够以高容错性处理PB级数据,但早期的单NameNode设计也带来了单点故障风险。
码字的字节
7 天前
hadoop
·
capacity
·
fairscheduler
深入解析YARN中的FairScheduler与CapacityScheduler:资源分配策略的核心区别
在Hadoop生态系统中,YARN(Yet Another Resource Negotiator)作为核心资源管理平台,其架构设计将计算资源管理与作业调度解耦,形成了"全局资源管理器(ResourceManager)+节点管理器(NodeManager)+应用管理器(ApplicationMaster)"的三层架构体系。其中ResourceManager的调度器模块(Scheduler)承担着集群资源分配的中枢职能,通过动态协调容器(Container)的分配与回收,实现多租户环境下计算资源的有效利用。
Johny_Zhao
7 天前
linux
·
hadoop
·
python
·
网络安全
·
信息安全
·
云计算
·
shell
·
yum源
·
系统运维
·
itsm
Centos8搭建hadoop高可用集群
以下是基于 CentOS 8 搭建高可用 Hadoop 集群的完整操作流程及命令,涵盖 6 台主机的规划、部署步骤和高可用(HA)配置。结合 Hadoop 3.x 官方文档和最佳实践整理:
码字的字节
8 天前
hadoop
·
hdfs
·
rpc
深入解析Hadoop高频面试题:HDFS读/写流程的RPC调用链
HDFS(Hadoop Distributed File System)作为Hadoop生态的核心存储组件,其读写流程的设计体现了分布式系统的高可靠性与高吞吐特性。理解HDFS读写机制的核心框架,是掌握大数据存储技术的基础,也是面试中高频考察的技术要点。
白日与明月
8 天前
hive
·
hadoop
·
vscode
Hive-vscode-snippets
为了提高写HiveSQL的体验,这里通过Qwen3Coder生成了一个vscode的snippets. 欢迎体验:
Sirius Wu
8 天前
数据仓库
·
hive
·
hadoop
Hive的窗口函数
Hive的窗口函数(Window Functions)是其SQL功能的核心亮点之一,用于在分组数据上执行计算,同时保留原始表的行数(不压缩分组)。窗口函数特别适用于排名分析、趋势计算、移动统计等复杂场景,是处理时间序列数据和多维分析的利器。