大数据相关组件安装及使用

自学大数据相关组件 持续更新中。。。

一、linux安装docker

1、更新yum

bash 复制代码
sudo yum update

2、卸载docker旧版本

bash 复制代码
sudo yum remove docker \
                  docker-client \
                  docker-client-latest \
                  docker-common \
                  docker-latest \
                  docker-latest-logrotate \
                  docker-logrotate \
                  docker-engine

3、添加镜像库

bash 复制代码
sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

4、安装

bash 复制代码
sudo yum install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

5、启动

bash 复制代码
systemctl start docker

二、docker安装mysql

1、拉取镜像

bash 复制代码
docker pull mysql

2、启动mysql

bash 复制代码
docker run -p 3306:3306 -e TZ=Asia/Shanghai -e MYSQL_ROOT_PASSWORD=@Abc123455 --name mysql -d mysql:latest

3、设置mysql时区

bash 复制代码
show variables like '%time_zone%';

SET time_zone = 'Asia/Shanghai';
SET @@global.time_zone = 'Asia/Shanghai';

SELECT @@global.time_zone;
show variables like '%time_zone%';

4、拉取postgres

bash 复制代码
docker pull postgres:alpine3.19

5、启动postgres

bash 复制代码
mkdir -p  /home/pgdata
bash 复制代码
docker run --name pg_p -v /home/pgdata/data:/var/lib/postgresql/data -e POSTGRES_PASSWORD=@Abc123455 -p 5432:5432 -d postgres:alpine3.19

三、安装jdk

1、下载jdk安装包

2、linux创建文件夹

bash 复制代码
mkdir /usr/local/java

3、jdk安装包放入文件夹内

4、解压

bash 复制代码
tar -zxvf jdk-8u351-linux-x64.tar.gz

5、更改环境变量

bash 复制代码
vim /etc/profile

添加

bash 复制代码
export JAVA_HOME=/usr/local/java/jdk8
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin

6、重载配置

bash 复制代码
source /etc/profile

7、检查是否生效

bash 复制代码
java -version

8、防止重启后重新重载配置

bash 复制代码
vim ~/.bashrc

添加

bash 复制代码
source /etc/profile

四、设置系统时区

1、设置 上海 UTC+8 时区

bash 复制代码
sudo ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

2、保持硬件时区与系统时区一致

bash 复制代码
timedatectl set-local-rtc 1

1、拉取镜像

bash 复制代码
docker pull flink:1.18.1-scala_2.12-java8

2、创建docker网络

bash 复制代码
docker network create mynet

3、启动jobmanager(master节点,管理程序,负责调度job运算)

bash 复制代码
 docker run -d --name jm --network mynet -p 8081:8081 -e JOB_MANAGER_RPC_ADDRESS=jm -e TZ=Asia/Shanghai  flink:1.18.1-scala_2.12-java8 jobmanager

启动两个taskmanager(真正运算task的节点)

bash 复制代码
docker run -d --name tm1 --network mynet -e JOB_MANAGER_RPC_ADDRESS=jm -e TZ=Asia/Shanghai flink:1.18.1-scala_2.12-java8 taskmanager

docker run -d --name tm2 --network mynet -e JOB_MANAGER_RPC_ADDRESS=jm -e TZ=Asia/Shanghai flink:1.18.1-scala_2.12-java8 taskmanager

4、然后可以通过8081打开管理页面,查看集群状态

六、Doris

参考官方文档

1、下载压缩包

2、解压

bash 复制代码
tar -zxvf apache-doris-2.0.4-bin-arm64.tar.gz

3、修改linux内核参数

bash 复制代码
sysctl vm.max_map_count
bash 复制代码
sudo sysctl -w vm.max_map_count=2000000

4、启动fe

bash 复制代码
cd apache-doris-x.x.x/fe

修改 FE 配置文件 conf/fe.conf

bash 复制代码
vim conf/fe.conf

添加 priority_networks 参数

bash 复制代码
priority_networks=172.23.16.0/24

添加元数据目录

bash 复制代码
meta_dir=/path/your/doris-meta

启动

bash 复制代码
./bin/start_fe.sh --daemon

使用mysql连接fe

bash 复制代码
mysql -uroot -P9030 -h127.0.0.1

查看fe运行状态:

bash 复制代码
show frontends\G;

5、启动be

bash 复制代码
cd apache-doris-x.x.x/be

修改 BE 配置文件 conf/be.conf

bash 复制代码
vim conf/be.conf

添加 priority_networks 参数

bash 复制代码
priority_networks=172.23.16.0/24

添加元数据目录

bash 复制代码
storage_root_path=/path/your/data_dir

启动

bash 复制代码
./bin/start_be.sh --daemon

添加 BE 节点到集群

通过 MySQL 客户端连接到 FE 之后执行下面的 SQL,将 BE 添加到集群中

bash 复制代码
ALTER SYSTEM ADD BACKEND "be_ip:9050";

6、验证启动

参考文档

Mysql往Doris同步数据

1、准备数据

Mysql:

bash 复制代码
-- 创建数据库
CREATE DATABASE app_db;

USE app_db;

-- 创建 orders 表
CREATE TABLE `orders` (
`id` INT NOT NULL,
`price` DECIMAL(10,2) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `orders` (`id`, `price`) VALUES (1, 4.00);
INSERT INTO `orders` (`id`, `price`) VALUES (2, 100.00);

-- 创建 shipments 表
CREATE TABLE `shipments` (
`id` INT NOT NULL,
`city` VARCHAR(255) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `shipments` (`id`, `city`) VALUES (1, 'beijing');
INSERT INTO `shipments` (`id`, `city`) VALUES (2, 'xian');

-- 创建 products 表
CREATE TABLE `products` (
`id` INT NOT NULL,
`product` VARCHAR(255) NOT NULL,
PRIMARY KEY (`id`)
);

-- 插入数据
INSERT INTO `products` (`id`, `product`) VALUES (1, 'Beer');
INSERT INTO `products` (`id`, `product`) VALUES (2, 'Cap');
INSERT INTO `products` (`id`, `product`) VALUES (3, 'Peanut');

Doris创建数据库:

bash 复制代码
create database app_db;

2、下载flink-cdc-3.0.1压缩包

3、解压,并将文件夹改名为flink-cdc

bash 复制代码
tar -zxvf flink-cdc-3.0.1-bin.tar.gz
mv flink-cdc-3.0.1 flink-cdc

4、下载以下两个jar包放入flink-cdc的lib文件夹下
flink-cdc-pipeline-connector-mysql-3.0.1.jar
flink-cdc-pipeline-connector-doris-3.0.1.jar

5、进入文件夹,新建mysql-to-doris.yaml文件:

bash 复制代码
cd flink-cdc
vim mysql-to-doris.yaml
bash 复制代码
source:
  type: mysql
  hostname: localhost
  port: 3306
  username: root
  password: 123456
  tables: app_db.\.*
  server-id: 5400-5404
  server-time-zone: Asia/Shanghai

sink:
  type: doris
  fenodes: 127.0.0.1:8030
  username: root
  password: ""
  table.create.properties.light_schema_change: true
  table.create.properties.replication_num: 1

pipeline:
  name: Sync MySQL Database to Doris
  parallelism: 2

6、最后,提交任务到 Flink 服务

将fllink-cdc复制入Flink容器内再运行:

bash 复制代码
docker cp flink-cdc jm:/opt

进入容器

bash 复制代码
docker exec -it jm /bin/bash

返回上一级文件夹,可以看到flink-cdc已被复制进来

进入flink-cdc文件夹下运行flink-cdc:

bash 复制代码
cd flink-cdc
bash 复制代码
bash bin/flink-cdc.sh mysql-to-doris.yaml

7、验证运行成功

更改Mysql中数据或表结构,Doris中同步进行了修改

八、DolphinScheduler

参考文档

相关推荐
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交4 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
Json_181790144807 小时前
An In-depth Look into the 1688 Product Details Data API Interface
大数据·json
Qspace丨轻空间9 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客10 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata11 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
水豚AI课代表11 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
拓端研究室TRL14 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据
黄焖鸡能干四碗14 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
编码小袁14 小时前
探索数据科学与大数据技术专业本科生的广阔就业前景
大数据