apache flink+starrack+paino 打造流批一体数据仓库

Pamion 部署

使用的组件版本

|----------|--------|
| StarRack | 3.3.0 |
| Flink | 1.19.1 |
| Paino | 0.8.2 |
| Kafka | 3、7.2 |

创建安装目录

复制代码
cd /usr/share/
mkdir -p streaminglake
cd streaminglake/
[root@hdp-2 streaminglake]# mkdir -p flink
[root@hdp-2 streaminglake]# mkdir -p starrocks
[root@hdp-2 streaminglake]# mkdir -p paimon
[root@hdp-2 streaminglake]# mkdir -p kafka

下载资料

下载 Flink和相关包

复制代码
cd flink 
wget "https://mirrors.aliyun.com/apache/flink/flink-1.19.1/flink-1.19.1-bin-scala_2.12.tgz"
赋予执行权限
复制代码
chmod u+x flink-1.19.1-bin-scala_2.12.tgz 
解压
复制代码
tar -xf flink-1.19.1-bin-scala_2.12.tgz
复制代码
wget "https://repo.maven.apache.org/maven2/org/apache/flink/flink-shaded-hadoop-2-uber/2.7.5-10.0/flink-shaded-hadoop-2-uber-2.7.5-10.0.jar"

wget "https://repo.maven.apache.org/maven2/org/apache/flink/flink-shaded-hadoop-2-uber/2.7.5-10.0/flink-shaded-hadoop-2-uber-2.7.5-10.0.jar"

复制代码
wget "https://repo1.maven.org/maven2/org/apache/flink/flink-sql-connector-kafka/3.2.0-1.18/flink-sql-connector-kafka-3.2.0-1.18.jar"
chmod u+x flink-sql-connector-kafka-3.2.0-1.18.jar 
复制代码
wget "https://github.com/StarRocks/starrocks-connector-for-apache-flink/releases/download/v1.2.9/flink-connector-starrocks-1.2.9_flink-1.18.jar"
chmod u+x flink-connector-starrocks-1.2.9_flink-1.18.jar

下载 Paimon 和相关依赖包

复制代码
cd paino
wget "https://repo.maven.apache.org/maven2/org/apache/paimon/paimon-flink-1.19/0.8.2/paimon-flink-1.19-0.8.2.jar"
#如果使用对象存储,需要下载下面的包
wget "https://repo.maven.apache.org/maven2/org/apache/paimon/paimon-oss/0.8.2/paimon-oss-0.8.2.jar"

授权执行

复制代码
 chmod u+x *

拷贝所有依赖包的flink/lib下

复制代码
cp paimon-flink-1.19-0.8.2.jar paimon-oss-0.8.2.jar flink-shaded-hadoop-2-uber-2.7.5-10.0.jar  flink-connector-starrocks-1.2.9_flink-1.18.jar flink-sql-connector-kafka-3.2.0-1.18.jar flink-1.19.1/lib/
复制代码
cd flink-1.19.1

#修改flink-1.19.1/conf/config.yaml中numberOfTaskSlots为10,允许同时执行的任务
numberOfTaskSlots: 10

./bin/start-cluster.sh

bash flink 客户端:

./bin/sql-client.sh embedded

创建 Iceberg Catalog 和表

复制代码
```sql
-- if you're trying out Paimon in a distributed environment,
-- the warehouse path should be set to a shared file system, S3 minio
CREATE CATALOG my_catalog WITH (
    'type' = 'paimon',
    'warehouse' = 's3://warehouse/wh',
    's3.endpoint'='http://192.168.116.130:9000',
    's3.access-key' = 'admin',
    's3.secret-key' = 'password',
    's3.region' = 'us-east-1'
);

USE CATALOG my_catalog;

-- create a word count table
CREATE TABLE word_count (
    word STRING PRIMARY KEY NOT ENFORCED,
    cnt BIGINT
);

创建完表,可以登录 minio:9001地址进行查看数据文件;

复制代码
USE CATALOG my_catalog;
-- insert data into word count table
insert into word_count values ('hello',2);
相关推荐
@insist1232 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师2 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记2 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局4 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客5 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy20145 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹6 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_949925186 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
xiaoduo AI6 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
小五兄弟7 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略
大数据·人工智能