hadoop

二宝哥8 小时前
大数据·hadoop
大数据之安装Hadoop3.1.4下载地址:https://hadoop.apache.org/releases.html上传下载好的Hadoop安装包到node1节点上,并解压:tar -zxvf ./hadoop-3.1.4.tar.gz
Irene19918 小时前
hadoop·ubuntu
Windows 11 WSL Ubuntu 环境:安装 Hadoop 完整指南本文详细介绍了在WSL Ubuntu环境下安装Hadoop的完整流程。主要内容包括:1) 环境准备(安装WSL、Ubuntu及必要工具);
Irene19919 小时前
hive·hadoop
(课堂笔记)Hive 基础Hive是基于Hadoop的数据仓库工具,提供类SQL查询功能(HQL)。核心特点包括:1)将HDFS文件映射为表结构;
nassi_19 小时前
大数据·人工智能·hadoop
对AI工程问题的一些思考过去三到五年,AI 编程工具经历了从「辅助插件」到「协作主体」的范式迁移。最早以 GitHub Copilot 为代表的产品,本质上是一种上下文感知的智能补全引擎——它能根据当前文件的光标位置,预测并生成下一段合理的代码片段。但随着大语言模型能力的跃升和工具链的成熟,第二代 AI 编程工具——以 OpenAI Codex、Anthropic Claude Code、Cursor Agent、Devin 等为代表——已经展现出完全不同的能力边界。
Irene19911 天前
hadoop
(课堂笔记)hadoop 基础使用Hadoop是一个分布式集群架构,专为处理PB级海量数据而设计,通过多节点协作实现数据存储、清洗和转换。
水火既济__1 天前
数据仓库·hive·hadoop
加快hive效率
lifewange3 天前
数据库·hive·hadoop
Hive 数据库 增删改 完整操作指南Hive 是基于 Hadoop 的数据仓库,不支持传统数据库的行级事务(标准 Hive),核心用于离线数据分析。
WL_Aurora3 天前
hive·hadoop·sqoop
Sqoop数据迁移工具从入门到精通在大数据开发的学习过程中,我们经常会遇到这样的场景:关系型数据库(MySQL、Oracle等)中存储着大量的业务数据,需要将这些数据迁移到Hadoop生态(HDFS、Hive、HBase)中进行离线分析;或者将Hadoop中分析后的结果数据导回关系型数据库供业务系统使用。
蜀道山老天师3 天前
大数据·linux·运维·hadoop·云原生·prometheus
Prometheus监控Hadoop集群(实操完整版,含避坑指南)前言:Hadoop集群作为大数据处理的核心基础设施,其稳定性直接决定业务可用性。Prometheus作为开源监控领域的标杆工具,凭借其时序数据采集、灵活查询及告警能力,成为Hadoop集群监控的首选方案。本文基于Almalinux9系统,结合实际部署场景,从监控原理、组件配置、Prometheus配置到Grafana可视化,手把手教你完成Hadoop集群监控搭建,同时解决实操中常见的网页解析失败等问题。
极光代码工作室4 天前
大数据·hadoop·python·数据分析·数据可视化
基于大数据的交通流量分析系统随着我国城市化进程持续加速,机动车保有量年均增长超10%,交通拥堵已成为制约城市可持续发展的核心瓶颈。据《2023年中国主要城市交通分析报告》显示,北京、上海、广州等一线城市高峰时段平均车速已降至18–22 km/h,通勤时间成本上升37%。传统基于固定线圈与人工抽样的交通监测手段存在覆盖范围窄、实时性差、数据维度单一等固有缺陷,难以支撑精细化治理需求。本文设计并实现了一套面向城市级路网的基于大数据的交通流量分析系统,融合多源异构数据(浮动车GPS轨迹、地磁传感器、卡口视频结构化数据、气象及POI信息),
卷毛迷你猪5 天前
大数据·hadoop·hdfs
快速实验篇(A1)干旱气象数据上传至HDFS(1)本实验是Hadoop完全分布式集群的入门操作,目标是理解HDFS的存储原理。(2)业务背景是将US Drought & Meteorological Data测试集(2012-2020年)的原始JSON数据转换为结构化CSV,上传至HDFS,并观察分布式存储的物理实现。
头歌实践平台5 天前
java·大数据·hadoop
Hadoop开发环境搭建
KANGBboy5 天前
大数据·hadoop·分布式
hadoop冷热数据分离将Hive表的历史数据从三副本改为单副本,以节省存储空间 对于历史数据的副本数调整,修改全局配置后(hdfs-site.xml中的dfs.replication默认副本数)只影响设置生效后新写入的数据。历史数据的副本数不会改变,必须手动执行命令来降低。另外只是对历史数据进行副本减少,近期数据还是要保持三副本。
WL_Aurora6 天前
大数据·hadoop·yarn
YARN资源调度器深度解析 | 架构原理、作业提交流程在前面的实验中,我们已经通过Shell命令和Web界面与YARN进行过交互,也利用YARN提交和监控过MapReduce作业。但YARN作为Hadoop生态的资源调度大脑,其底层架构和工作机制远比表面看到的复杂。本文将从YARN基础架构、作业提交流程、三大调度器对比和生产环境核心参数调优四个维度,结合架构图与源码逻辑,带你彻底掌握YARN的设计精髓。
vivo互联网技术6 天前
大数据·hadoop·yarn
vivo 万台规模 YARN 集群升级实践作者:互联网大数据团队-Wang Zhiwen 本文主要介绍了 vivo 大数据架构的演进历程中 YARN 服务的升级事项,从整体方案出发剖析每个环节遇到的问题难点并逐一分析讲解,对于研究调度器性能和从事大数据运维工作的同学具有较大的参考借鉴价值。
黄金矿工Kingliu6 天前
大数据·服务器·hadoop
经典hadoop案例应用(命令实现版)1.wordcount 词频hadoop jar ./share/hadoop-example.jar wordcount /input /output
卷毛迷你猪6 天前
大数据·hadoop·分布式
小肥柴的Hadoop之旅 快速实验篇(0-1)虚拟机模拟完全分布式环境搭建(1)目标:在本地 VMware 虚拟机中搭建 5 节点完全分布式 Hadoop 3.3.6 集群(1主 + 1备 + 3工作),并打通后续扩展 ZooKeeper、Kafka、Spark 的基础。 (2)适用环境:Windows 宿主机 + VMware Workstation Pro 17 + Ubuntu Server 22.04 LTS。 【注】所有软件均从国内清华镜像站获取。
飞火流星020276 天前
大数据·hadoop·分布式·hadoop3.1.1集群安装·hive3.1.0安装
Hadoop3.1.1集群+Hive3.1.0环境安装- Cent OS 7.9 官方下载地址:CentOS-7-x86_64-DVD-2009.iso- Hadoop 3.1.1 官方下载地址:Hadoop 3.1.1
咖啡里的茶i7 天前
hadoop·docker·容器
在Docker环境中安装Hadoop cluster 实验报告一班 级:物联网2303 学 号:231040700302 姓 名:杜子健1.1 Docker Desktop 安装与配置
白日与明月7 天前
数据仓库·hive·hadoop
Hive分桶机制应用业务背景:解决办法:新表设计:动态分区分桶设计的4条核心原则:1: 确定分桶键✅ 优先候选❌ 绝对不要