hadoop

让头发掉下来2 小时前
大数据·hive·hadoop·hbase·sqoop
Sqoop详细学习文档Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
非极限码农1 天前
hive·hadoop·sql
Hive SQL (HQL) 编辑指南Hive SQL(HQL)是基于Hive的数据仓库查询语言,语法类似标准SQL,但因Hive的离线大数据处理特性,存在一些特有规则和最佳实践。以下是Hive SQL的编辑指南,涵盖核心语法、注意事项和优化技巧:
非极限码农1 天前
数据仓库·hive·hadoop·etl
Hive数仓部署/分层/ETL脚本基础指南部署Hive数仓及分层基础指南部署和构建一个Hive数仓涉及多个步骤,包括设置Hadoop集群、配置Hive、设计数据仓库架构以及实现ETL(Extract, Transform, Load)过程。下面是一个详细的指南,帮助你完成这些步骤。
cici158741 天前
java·linux·hadoop
linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录在Linux系统中,环境变量 HADOOP_HOME和 JAVA_HOME用于指示Hadoop和Java的安装路径。删除这些环境变量后,系统依然指向旧目录,通常是由于这些变量在多个地方设置,或未正确刷新环境变量。本文将探讨如何正确处理这个问题,并确保环境变量指向新的目录。
lifallen1 天前
java·大数据·数据结构·hadoop·分布式·算法
hadoop.yarn 带时间的LRU 延迟删除org.apache.hadoop.yarn.util.LRUCache这是一个在 Hadoop YARN 中被使用的、实现了最近最少使用(LRU)策略的缓存。它主要用于存储那些可以被重新计算或获取,但访问代价较高的数据,通过缓存来提升系统性能。
哈哈很哈哈2 天前
大数据·hadoop·分布式
Hadoop JMX 配置的完整文档Java Management Extensions(JMX)提供标准 API 监控 JVM 应用运行时状态(内存、线程、GC)及 Hadoop 组件指标(HDFS 容量、RPC 性能、节点状态)
jzy37112 天前
linux·hadoop·apache hive
国产化适配鲲鹏arm环境:hive on tez 单节点部署实践总结本文详细指导如何在已安装Java的鲲鹏服务器环境下,从下载Hadoop开始,依次配置环境变量、YARN和HDFS设置,然后安装并配置Hive数据库和tez单机版,最后验证服务运行。涉及关键步骤如配置文件和启动服务。
wzy06233 天前
hadoop·impala
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(三)目录三、Impala OLAP 实例1. 建立 olap 库、表、视图2. 初始装载数据3. 修改销售订单定期装载脚本
wzy06233 天前
hive·hadoop·impala·sparksql
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(二)目录二、Hive、SparkSQL、Impala 比较1. SparkSQL 简介2. Hive、SparkSQL、Impala 比较
wzy06233 天前
hadoop·impala
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(一)目录一、OLAP 与 Impala 简介1. OLAP 简介2. Impala 简介(1)Impala 是什么
wzy06233 天前
hadoop·hue
基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(六)目录六、Hue 数据可视化实例1. Impala 查询2. DB 查询3. 建立工作流本节先用 Impala、DB 查询示例说明 Hue 的数据查询和可视化功能,然后交互式地建立一个定期执行销售订单示例 ETL 任务的工作流,说明在 Hue 里是如何操作 Oozie 工作流引擎的。
喻师傅4 天前
大数据·hadoop·分布式·sql·spark
Spark SQL 数组函数合集:array_agg、array_contains、array_sort…详解官网: https://spark.apache.org/docs/latest/api/sql/index.html#array
LiRuiJie5 天前
大数据·hadoop·flink·iceberg·flinkcdc
基于Hadoop3.3.4+Flink1.17.0+FlinkCDC3.0.0+Iceberg1.5.0整合,实现数仓实时同步mysql数据验证:添加如下内容:验证:在两台机器都执行:添加:执行使其生效:假设 Hadoop 安装目录是 /opt/hadoop,配置文件在 $HADOOP_HOME/etc/hadoop/ 下。
cici158745 天前
hadoop·docker·eureka
Docker搭建Hadoop集群搭建Hadoop集群是一个相对复杂的过程,涉及到多个步骤和配置。下面是一个基本的Docker搭建Hadoop集群的教程,供参考:
码字的字节6 天前
hadoop·分布式·zookeeper·分布式锁
ZooKeeper在Hadoop中的协同应用:从NameNode选主到分布式锁实现Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系作为大数据处理的基石,Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator)两大模块。HDFS采用主从架构设计,由NameNode负责元数据管理,DataNode存储实际数据块。这种设计使得Hadoop能够以高容错性处理PB级数据,但早期的单NameNode设计也带来了单点故障风险。
码字的字节7 天前
hadoop·capacity·fairscheduler
深入解析YARN中的FairScheduler与CapacityScheduler:资源分配策略的核心区别在Hadoop生态系统中,YARN(Yet Another Resource Negotiator)作为核心资源管理平台,其架构设计将计算资源管理与作业调度解耦,形成了"全局资源管理器(ResourceManager)+节点管理器(NodeManager)+应用管理器(ApplicationMaster)"的三层架构体系。其中ResourceManager的调度器模块(Scheduler)承担着集群资源分配的中枢职能,通过动态协调容器(Container)的分配与回收,实现多租户环境下计算资源的有效利用。
Johny_Zhao7 天前
linux·hadoop·python·网络安全·信息安全·云计算·shell·yum源·系统运维·itsm
Centos8搭建hadoop高可用集群以下是基于 CentOS 8 搭建高可用 Hadoop 集群的完整操作流程及命令,涵盖 6 台主机的规划、部署步骤和高可用(HA)配置。结合 Hadoop 3.x 官方文档和最佳实践整理:
码字的字节8 天前
hadoop·hdfs·rpc
深入解析Hadoop高频面试题:HDFS读/写流程的RPC调用链HDFS(Hadoop Distributed File System)作为Hadoop生态的核心存储组件,其读写流程的设计体现了分布式系统的高可靠性与高吞吐特性。理解HDFS读写机制的核心框架,是掌握大数据存储技术的基础,也是面试中高频考察的技术要点。
白日与明月8 天前
hive·hadoop·vscode
Hive-vscode-snippets为了提高写HiveSQL的体验,这里通过Qwen3Coder生成了一个vscode的snippets. 欢迎体验:
Sirius Wu8 天前
数据仓库·hive·hadoop
Hive的窗口函数Hive的窗口函数(Window Functions)是其SQL功能的核心亮点之一,用于在分组数据上执行计算,同时保留原始表的行数(不压缩分组)。窗口函数特别适用于排名分析、趋势计算、移动统计等复杂场景,是处理时间序列数据和多维分析的利器。