搭建大数据学习的平台

一、基础环境准备

1. 硬件配置
  • 物理机:建议 16GB 内存以上,500GB 硬盘,多核 CPU
  • 虚拟机:至少 3 台(1 主 2 从),每台 4GB 内存,50GB 硬盘
2. 操作系统
  • Ubuntu 20.04 LTS 或 CentOS 7/8
3. 网络配置
  • 静态 IP 分配(例如:192.168.1.101~103)

  • 主机名映射(/etc/hosts):

    plaintext

    复制代码
    192.168.1.101 hadoop-master
    192.168.1.102 hadoop-slave1
    192.168.1.103 hadoop-slave2

二、核心组件安装

1. Hadoop 分布式系统
  • 安装步骤参考之前的回答
  • 配置高可用(HA)模式(可选)
2. Hive 数据仓库

bash

复制代码
# 下载和解压
wget https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
tar -xzf apache-hive-3.1.3-bin.tar.gz -C /opt/
mv /opt/apache-hive-3.1.3-bin /opt/hive

# 配置环境变量
echo 'export HIVE_HOME=/opt/hive' >> ~/.bashrc
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> ~/.bashrc
source ~/.bashrc
3. Spark 计算引擎

bash

复制代码
# 下载和解压
wget https://downloads.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt/
mv /opt/spark-3.3.2-bin-hadoop3 /opt/spark

# 配置环境变量
echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
4. HBase 分布式数据库

bash

复制代码
# 下载和解压
wget https://downloads.apache.org/hbase/2.5.7/hbase-2.5.7-bin.tar.gz
tar -xzf hbase-2.5.7-bin.tar.gz -C /opt/
mv /opt/hbase-2.5.7 /opt/hbase

# 配置环境变量
echo 'export HBASE_HOME=/opt/hbase' >> ~/.bashrc
echo 'export PATH=$PATH:$HBASE_HOME/bin' >> ~/.bashrc
source ~/.bashrc

三、服务集成与配置

1. Hive 与 Hadoop 集成
  • 修改 $HIVE_HOME/conf/hive-site.xml

    xml

    复制代码
    <configuration>
        <property>
            <name>hive.metastore.warehouse.dir</name>
            <value>/user/hive/warehouse</value>
        </property>
        <property>
            <name>hive.metastore.uris</name>
            <value>thrift://hadoop-master:9083</value>
        </property>
    </configuration>
2. Spark 与 Hadoop 集成
  • 修改 $SPARK_HOME/conf/spark-env.sh

    bash

    复制代码
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_MASTER_HOST=hadoop-master
    export SPARK_WORKER_MEMORY=2g
3. HBase 与 Hadoop 集成
  • 修改 $HBASE_HOME/conf/hbase-site.xml

    xml

    复制代码
    <configuration>
        <property>
            <name>hbase.rootdir</name>
            <value>hdfs://hadoop-master:9000/hbase</value>
        </property>
        <property>
            <name>hbase.cluster.distributed</name>
            <value>true</value>
        </property>
    </configuration>

四、服务启动与验证

1. 启动顺序

bash

复制代码
# 启动 Hadoop
start-dfs.sh
start-yarn.sh

# 启动 Hive Metastore
hive --service metastore &

# 启动 Spark
start-master.sh
start-workers.sh

# 启动 HBase
start-hbase.sh
2. 验证服务

五、可视化工具安装

1. Zeppelin 数据探索

bash

复制代码
# 下载和解压
wget https://downloads.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz
tar -xzf zeppelin-0.10.1-bin-all.tgz -C /opt/
mv /opt/zeppelin-0.10.1-bin-all /opt/zeppelin

# 启动 Zeppelin
/opt/zeppelin/bin/zeppelin-daemon.sh start

访问:http://hadoop-master:8081

2. Superset 数据可视化

bash

复制代码
# 安装依赖
sudo apt install python3-pip python3-venv

# 创建虚拟环境
python3 -m venv superset
source superset/bin/activate

# 安装 Superset
pip install apache-superset
superset db upgrade

# 创建管理员用户
superset fab create-admin

# 初始化
superset init

# 启动 Superset
superset run -p 8088 --with-threads --reload --debugger

访问:http://hadoop-master:8088

相关推荐
Rider_bai6 小时前
长春到天津物流专线,长春到天津物流公司,如何找到靠谱公司的联系方式?
大数据·网络·物联网·敏捷流程·交通物流
skywalk81636 小时前
记录段言的开发过程
开发语言·学习·编程
知识分享小能手6 小时前
Hadoop学习教程,从入门到精通, MapReduce分布式计算框架 — 完整知识点与代码案例(4)
hadoop·学习·mapreduce
团象科技6 小时前
从一线实操案例拆解不同出海团队落地海外VPS运维独立站的路径细节
大数据·数据库·人工智能
yinmaisoft6 小时前
JNPF 三大主流行业解决方案,按需定制
大数据·低代码·开发工具
王牌狮AIen7 小时前
AI营销智能体实战:OPC如何重构自主获客闭环?
大数据·人工智能·重构·数据挖掘·geo·ai营销
YM52e7 小时前
鸿蒙HarmonyOS ArkTS 实战:教师座椅出入记录 APP 从零到一
学习·华为·harmonyos·鸿蒙系统
踏着七彩祥云的小丑7 小时前
嵌入式测试第 32 天:升级测试:固件OTA升级、断点续传、回滚测试
单片机·嵌入式硬件·学习
小陈phd7 小时前
Text2SQL智能体学习笔记(二)——NL2SQL落地的隐形基石:元数据库
数据库·笔记·学习
上海达策TECHSONIC7 小时前
零售ERP选型解析:SAP Business One 适配成长型零售企业的核心逻辑
大数据·运维·人工智能·云计算·运维开发·零售