技术栈
hadoop
lifewange
1 天前
数据库
·
hive
·
hadoop
Hive 数据库 增删改 完整操作指南
Hive 是基于 Hadoop 的数据仓库,不支持传统数据库的行级事务(标准 Hive),核心用于离线数据分析。
WL_Aurora
1 天前
hive
·
hadoop
·
sqoop
Sqoop数据迁移工具从入门到精通
在大数据开发的学习过程中,我们经常会遇到这样的场景:关系型数据库(MySQL、Oracle等)中存储着大量的业务数据,需要将这些数据迁移到Hadoop生态(HDFS、Hive、HBase)中进行离线分析;或者将Hadoop中分析后的结果数据导回关系型数据库供业务系统使用。
蜀道山老天师
1 天前
大数据
·
linux
·
运维
·
hadoop
·
云原生
·
prometheus
Prometheus监控Hadoop集群(实操完整版,含避坑指南)
前言:Hadoop集群作为大数据处理的核心基础设施,其稳定性直接决定业务可用性。Prometheus作为开源监控领域的标杆工具,凭借其时序数据采集、灵活查询及告警能力,成为Hadoop集群监控的首选方案。本文基于Almalinux9系统,结合实际部署场景,从监控原理、组件配置、Prometheus配置到Grafana可视化,手把手教你完成Hadoop集群监控搭建,同时解决实操中常见的网页解析失败等问题。
极光代码工作室
2 天前
大数据
·
hadoop
·
python
·
数据分析
·
数据可视化
基于大数据的交通流量分析系统
随着我国城市化进程持续加速,机动车保有量年均增长超10%,交通拥堵已成为制约城市可持续发展的核心瓶颈。据《2023年中国主要城市交通分析报告》显示,北京、上海、广州等一线城市高峰时段平均车速已降至18–22 km/h,通勤时间成本上升37%。传统基于固定线圈与人工抽样的交通监测手段存在覆盖范围窄、实时性差、数据维度单一等固有缺陷,难以支撑精细化治理需求。本文设计并实现了一套面向城市级路网的基于大数据的交通流量分析系统,融合多源异构数据(浮动车GPS轨迹、地磁传感器、卡口视频结构化数据、气象及POI信息),
卷毛迷你猪
3 天前
大数据
·
hadoop
·
hdfs
快速实验篇(A1)干旱气象数据上传至HDFS
(1)本实验是Hadoop完全分布式集群的入门操作,目标是理解HDFS的存储原理。(2)业务背景是将US Drought & Meteorological Data测试集(2012-2020年)的原始JSON数据转换为结构化CSV,上传至HDFS,并观察分布式存储的物理实现。
头歌实践平台
3 天前
java
·
大数据
·
hadoop
Hadoop开发环境搭建
KANGBboy
3 天前
大数据
·
hadoop
·
分布式
hadoop冷热数据分离
将Hive表的历史数据从三副本改为单副本,以节省存储空间 对于历史数据的副本数调整,修改全局配置后(hdfs-site.xml中的dfs.replication默认副本数)只影响设置生效后新写入的数据。历史数据的副本数不会改变,必须手动执行命令来降低。另外只是对历史数据进行副本减少,近期数据还是要保持三副本。
WL_Aurora
4 天前
大数据
·
hadoop
·
yarn
YARN资源调度器深度解析 | 架构原理、作业提交流程
在前面的实验中,我们已经通过Shell命令和Web界面与YARN进行过交互,也利用YARN提交和监控过MapReduce作业。但YARN作为Hadoop生态的资源调度大脑,其底层架构和工作机制远比表面看到的复杂。本文将从YARN基础架构、作业提交流程、三大调度器对比和生产环境核心参数调优四个维度,结合架构图与源码逻辑,带你彻底掌握YARN的设计精髓。
vivo互联网技术
4 天前
大数据
·
hadoop
·
yarn
vivo 万台规模 YARN 集群升级实践
作者:互联网大数据团队-Wang Zhiwen 本文主要介绍了 vivo 大数据架构的演进历程中 YARN 服务的升级事项,从整体方案出发剖析每个环节遇到的问题难点并逐一分析讲解,对于研究调度器性能和从事大数据运维工作的同学具有较大的参考借鉴价值。
黄金矿工Kingliu
4 天前
大数据
·
服务器
·
hadoop
经典hadoop案例应用(命令实现版)
1.wordcount 词频hadoop jar ./share/hadoop-example.jar wordcount /input /output
卷毛迷你猪
4 天前
大数据
·
hadoop
·
分布式
小肥柴的Hadoop之旅 快速实验篇(0-1)虚拟机模拟完全分布式环境搭建
(1)目标:在本地 VMware 虚拟机中搭建 5 节点完全分布式 Hadoop 3.3.6 集群(1主 + 1备 + 3工作),并打通后续扩展 ZooKeeper、Kafka、Spark 的基础。 (2)适用环境:Windows 宿主机 + VMware Workstation Pro 17 + Ubuntu Server 22.04 LTS。 【注】所有软件均从国内清华镜像站获取。
飞火流星02027
4 天前
大数据
·
hadoop
·
分布式
·
hadoop3.1.1集群安装
·
hive3.1.0安装
Hadoop3.1.1集群+Hive3.1.0环境安装
- Cent OS 7.9 官方下载地址:CentOS-7-x86_64-DVD-2009.iso- Hadoop 3.1.1 官方下载地址:Hadoop 3.1.1
咖啡里的茶i
5 天前
hadoop
·
docker
·
容器
在Docker环境中安装Hadoop cluster 实验报告一
班 级:物联网2303 学 号:231040700302 姓 名:杜子健1.1 Docker Desktop 安装与配置
白日与明月
5 天前
数据仓库
·
hive
·
hadoop
Hive分桶机制应用
业务背景:解决办法:新表设计:动态分区分桶设计的4条核心原则:1: 确定分桶键✅ 优先候选❌ 绝对不要
水火既济__
5 天前
hive
·
hadoop
·
json
hive中加载json数据建表(大规模)
create table test_db1.tb_json_test2 ( device string, deviceType string, signal double, time bigint ) row format serde ‘org.apache.hive.hcatalog.data.JsonSerDe’;
Volunteer Technology
6 天前
大数据
·
hadoop
·
hdfs
HDFS源码(二)
“chooseTargetInOrder”方法代码逻辑为block 副本找到存储节点的策略,然后返回block所在的第一个节点,首先第一个block存储在本机,第二个block存储在远程机架,第三个副本存储时先判断是否第一个副本和第二个副本是否在同一机架,如果在同一机架,那么第三个副本选择不同机架进行存储,否则选择与第二个副本相同机架的随机节点进行存储。最终该方法返回存储第一个副本的DataNode节点。
WL_Aurora
6 天前
大数据
·
hadoop
·
mapreduce
MapReduce框架原理深度解析 | Shuffle机制、切片分区、Join全攻略
作为大数据开发者,深入理解MapReduce的框架原理至关重要。本文将从InputFormat数据输入、Shuffle机制、Partition分区、Combiner合并、Join应用和数据压缩六大核心模块,结合源码与架构图,带你彻底搞懂MapReduce的底层设计。
赵渝强老师
6 天前
大数据
·
hadoop
·
分布式
【赵渝强老师】Hadoop的伪分布部署模式
Hadoop的安装和部署是大数据生态圈体系中最麻烦的一个。Hadoop部署完成后,进一步地部署Spark和Flink就非常容易了。Hadoop的部署模式分为本地模式、伪分布模式和全分布模式。在学习完成了ZooKeeper的相关内容后,还将进一步地学习Hadoop HA的部署。这里重点讨论一下Hadoop的伪分布部署模式。
Volunteer Technology
6 天前
大数据
·
hadoop
·
hdfs
HDFS源码(一)
RPC(Remote Procedure Call,远程过程调用)是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议,通过RPC 能让应用层可以像调用本地方法一样调用远程方法。Hadoop中各个节点之间的通信就是通过RPC 进行通信。
WL_Aurora
7 天前
大数据
·
hadoop
·
hdfs
HDFS底层原理深度解析 | 读写流程、NameNode工作机制、DataNode心跳与数据完整性
作为大数据开发者,深入理解HDFS的底层原理至关重要。本文将从读写数据流程、NameNode与SecondaryNameNode工作机制、DataNode心跳与数据完整性三个核心维度,结合源码与架构图,带你彻底搞懂HDFS的设计哲学。