大数据学习1:Hadoop单机版环境搭建

1.基础知识介绍

Flume采集日志。Sqoop采集结构化数据,比如采集数据库。

存储到HDFS上。

YARN资源调度,每台服务器上分配多少资源。

Hive是基于Hadoop的一个数据仓库工具,提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。MapReduce将HDFS数据分割,整合键值对,再整到HDFS。

Spark是一款大数据处理框架,其开发初衷是改良Hadoop MapReduce的编程模型和提高运行速度。Spark主要面向批处理需求,但也支持流处理,因其优异的性能和易用的接口,Spark已经是批处理界绝对的王者。

Kafka也是一种面向大数据领域的消息队列框架,一个企业经常拆分出很多不同的应用系统,系统之间需要建立数据流管道。

2.具体流程

使用虚拟机新建了centos7的linux系统,在上面部署的

一、环境准备

1.上传下载的jdk包

2.解压JDK安装包

3.配置环境变量

4.配置免密登录,ip改成自己的ip

二、配置Hadoop

1.上传下载的Hadoop包

2.进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置,都是vim打开修改

3.初始化并启动HDFS

我的是http://192.168.59.100:9870/

三、Hadoop(YARN)环境搭建

1.修改配置文件,进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置

2.启动服务

在这个文件夹下面cd /opt/server/hadoop-3.1.0/sbin/

在当前目录下启动

访问地址为:http://192.168.59.100:8088/

相关推荐
让头发掉下来10 分钟前
Sqoop详细学习文档
大数据·hive·hadoop·hbase·sqoop
BigData共享2 小时前
StarRocks 查询探秘(一):SELECT语句的解析之旅
大数据
一直在努力的小宁2 小时前
Diffuse and Disperse: Image Generation with Representation Regularization
大数据·人工智能·计算机视觉·diffuse
宸津-代码粉碎机7 小时前
LLM 模型部署难题的技术突破:从轻量化到分布式推理的全栈解决方案
java·大数据·人工智能·分布式·python
NeRF_er13 小时前
STORM代码阅读笔记
大数据·笔记·storm
TDengine (老段)17 小时前
TDengine 中 TDgp 中添加机器学习模型
大数据·数据库·算法·机器学习·数据分析·时序数据库·tdengine
希艾席帝恩18 小时前
拥抱智慧物流时代:数字孪生技术的应用与前景
大数据·人工智能·低代码·数字化转型·业务系统
Bar_artist18 小时前
离线智能破局,架构创新突围:RockAI与中国AI的“另一条车道”
大数据·人工智能
牛客企业服务20 小时前
2025校招AI应用:校园招聘的革新与挑战
大数据·人工智能·机器学习·面试·职场和发展·求职招聘·语音识别
电商数据girl21 小时前
如何利用API接口与网页爬虫协同进行电商平台商品数据采集?
大数据·开发语言·人工智能·python·django·json