大数据学习1:Hadoop单机版环境搭建

1.基础知识介绍

Flume采集日志。Sqoop采集结构化数据,比如采集数据库。

存储到HDFS上。

YARN资源调度,每台服务器上分配多少资源。

Hive是基于Hadoop的一个数据仓库工具,提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。MapReduce将HDFS数据分割,整合键值对,再整到HDFS。

Spark是一款大数据处理框架,其开发初衷是改良Hadoop MapReduce的编程模型和提高运行速度。Spark主要面向批处理需求,但也支持流处理,因其优异的性能和易用的接口,Spark已经是批处理界绝对的王者。

Kafka也是一种面向大数据领域的消息队列框架,一个企业经常拆分出很多不同的应用系统,系统之间需要建立数据流管道。

2.具体流程

使用虚拟机新建了centos7的linux系统,在上面部署的

一、环境准备

1.上传下载的jdk包

2.解压JDK安装包

3.配置环境变量

4.配置免密登录,ip改成自己的ip

二、配置Hadoop

1.上传下载的Hadoop包

2.进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置,都是vim打开修改

3.初始化并启动HDFS

我的是http://192.168.59.100:9870/

三、Hadoop(YARN)环境搭建

1.修改配置文件,进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置

2.启动服务

在这个文件夹下面cd /opt/server/hadoop-3.1.0/sbin/

在当前目录下启动

访问地址为:http://192.168.59.100:8088/

相关推荐
跨境卫士-小汪40 分钟前
旺季前成本项变多跨境卖家如何设定更稳的备货优先级
大数据·人工智能·产品运营·跨境电商·亚马逊
地球资源数据云1 小时前
1951-2025年中国逐年1千米逐月总降水量区域统计数据集_年表_县
大数据·数据结构·数据库·数据仓库·人工智能
云飞云共享云桌面1 小时前
精密机械制造工厂研发部门使用SolidWorks和ug,三维设计云桌面如何选择?
大数据·运维·服务器·网络·数据库·人工智能·制造
互联网推荐官1 小时前
定制开发落地实践:D-coding 销售采购系统赋能上海多终端软件项目建设
大数据
千里念行客2401 小时前
锚定AI赛道释放红利:安凯微2026年Q1业绩显成色
大数据·人工智能·科技·安全
跨境卫士—小依2 小时前
小包裹税负变化传导到前端跨境卖家如何设计新的价格带
大数据·人工智能·跨境电商·跨境·营销策略
BizObserver2 小时前
从 SEO 到 GEO:2026 年品牌信息分发逻辑的颠覆性变革
大数据·运维·网络·人工智能·安全
财迅通Ai3 小时前
南矿集团:2026Q1营收增速超21% 海外业务翻倍增长
大数据·人工智能·南矿集团
考勤技术解析3 小时前
外包技术人员打卡管理的技术痛点与轻量化解决方案
大数据·人工智能·ai
小五传输3 小时前
内外网文件交换系统产品推荐:安全高效一体化,破解内外网传输难题
大数据·运维·安全