大数据学习1:Hadoop单机版环境搭建

1.基础知识介绍

Flume采集日志。Sqoop采集结构化数据,比如采集数据库。

存储到HDFS上。

YARN资源调度,每台服务器上分配多少资源。

Hive是基于Hadoop的一个数据仓库工具,提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。MapReduce将HDFS数据分割,整合键值对,再整到HDFS。

Spark是一款大数据处理框架,其开发初衷是改良Hadoop MapReduce的编程模型和提高运行速度。Spark主要面向批处理需求,但也支持流处理,因其优异的性能和易用的接口,Spark已经是批处理界绝对的王者。

Kafka也是一种面向大数据领域的消息队列框架,一个企业经常拆分出很多不同的应用系统,系统之间需要建立数据流管道。

2.具体流程

使用虚拟机新建了centos7的linux系统,在上面部署的

一、环境准备

1.上传下载的jdk包

2.解压JDK安装包

3.配置环境变量

4.配置免密登录,ip改成自己的ip

二、配置Hadoop

1.上传下载的Hadoop包

2.进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置,都是vim打开修改

3.初始化并启动HDFS

我的是http://192.168.59.100:9870/

三、Hadoop(YARN)环境搭建

1.修改配置文件,进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置

2.启动服务

在这个文件夹下面cd /opt/server/hadoop-3.1.0/sbin/

在当前目录下启动

访问地址为:http://192.168.59.100:8088/

相关推荐
小五传输4 分钟前
宏病毒查杀效率提升80%:2026年宏病毒查杀自动化方案详解
大数据·运维·安全
段一凡-华北理工大学4 分钟前
工业领域的Hadoop架构学习~系列文章24:adoop工业应用总结与展望 - 技术路线图与最佳实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
korry249 分钟前
flink实时计算实例(保姆级操作)
大数据·flink
一切皆是因缘际会10 分钟前
因果推理人工智能
大数据·数据结构·人工智能
AI原来如此12 分钟前
Claude Opus与GPT-5激战,国内API中转站如何应对2026模型迭代潮?
大数据·人工智能·gpt·ai·大模型·ai编程
Taerge011015 分钟前
Doris, StarRocks, ClickHouse, Hologres, ES 对比,选型建议
大数据·clickhouse·elasticsearch
极光代码工作室18 分钟前
基于数据分析的电影票房预测系统
大数据·python·数据分析·spark·数据可视化
搞科研的小刘选手18 分钟前
【智能计算方向专题研讨会】第三届智能计算与数据分析国际学术会议(ICDA 2026)
大数据·算法·机器学习·数据挖掘·数据分析·可视化·计算
量化君也24 分钟前
桥水基金全天候策略拆解,构建中国ETF躺平版策略
大数据·人工智能·python·算法·金融·业界资讯
DataX_ruby8228 分钟前
2026年数据中台平台成熟度排名
大数据·人工智能·数据治理·数据中台