Spark + Iceberg 快速入门

Iceberg作为常用的数据湖,以下是docker环境的快速搭建

代码下载路径

这是一个 docker compose 环境,可以快速启动并运行 Spark 环境和本地 REST 目录,并使用 MinIO 作为存储后端。

注意 :如果您尚未安装 docker,您可以前往获取 Docker 页面获取安装说明。

用法

通过运行以下命令启动笔记本服务器。

复制代码
docker-compose up

笔记本服务器将可以通过http://localhost:8888访问

在笔记本服务器运行时,如果您更喜欢使用 spark-shell、spark-sql 或 pyspark,则可以使用以下任意命令。

bash 复制代码
docker exec -it spark-iceberg spark-shell
sql 复制代码
docker exec -it spark-iceberg spark-sql
bash 复制代码
docker exec -it spark-iceberg pyspark

要停止一切,只需运行docker-compose down

故障排除和维护

刷新 Docker 镜像

将预先构建好的spark镜像上传到Dockerhub,为了方便,镜像标签默认为latest

如果您有旧版本的图像,则可能需要将其删除才能升级。

bash 复制代码
docker image rm tabulario/spark-iceberg && docker-compose pull

在本地构建 Docker 映像

如果您想更改本地文件并进行测试,您可以在本地构建图像并使用它:

bash 复制代码
docker image rm tabulario/spark-iceberg && docker-compose build

Dockerfile在此 Repo 中使用

要直接使用此 repo 中的 Dockerfile(而不是拉取预构建tabulario/spark-iceberg映像),您可以使用docker-compose build

部署变更

要将更改部署到托管的 docker 映像tabulario/spark-iceberg,请运行以下命令。(需要访问 tabulario docker hub 帐户)

bash 复制代码
cd spark
docker buildx build -t tabulario/spark-iceberg --platform=linux/amd64,linux/arm64 . --push

有关开始使用 Iceberg 的更多信息,请查看官方文档中的快速入门指南。

Docker 镜像的存储库位于 dockerhub 上

相关推荐
JH30734 小时前
SpringBoot自定义启动banner:给项目加个专属“开机画面”
java·spring boot·后端
what丶k5 小时前
深度解析Redis LRU与LFU算法:区别、实现与选型
java·redis·后端·缓存
测试人社区-浩辰5 小时前
AI与区块链结合的测试验证方法
大数据·人工智能·分布式·后端·opencv·自动化·区块链
老友@7 小时前
分布式事务完全演进链:从单体事务到 TCC 、Saga 与最终一致性
分布式·后端·系统架构·事务·数据一致性
java1234_小锋8 小时前
Spring里AutoWired与Resource区别?
java·后端·spring
风象南8 小时前
Spring Boot 定时任务多实例互斥执行
java·spring boot·后端
崎岖Qiu8 小时前
【深度剖析】:结合 Spring Bean 的生命周期理解 @PostConstruct 的原理
java·笔记·后端·spring·javaee
毕设源码-郭学长8 小时前
【开题答辩全过程】以 基于Springboot旅游景点管理系统的设计与实现为例,包含答辩的问题和答案
java·spring boot·后端
方安乐9 小时前
杂记:Quart和Flask比较
后端·python·flask
qq_12498707539 小时前
基于SpringBoot的闪电队篮球俱乐部管理系统的设计与开发(源码+论文+部署+安装)
java·数据库·spring boot·后端·spring·毕业设计·计算机毕业设计