Iceberg作为常用的数据湖,以下是docker环境的快速搭建
这是一个 docker compose 环境,可以快速启动并运行 Spark 环境和本地 REST 目录,并使用 MinIO 作为存储后端。
注意 :如果您尚未安装 docker,您可以前往获取 Docker 页面获取安装说明。
用法
通过运行以下命令启动笔记本服务器。
docker-compose up
笔记本服务器将可以通过http://localhost:8888访问
在笔记本服务器运行时,如果您更喜欢使用 spark-shell、spark-sql 或 pyspark,则可以使用以下任意命令。
bash
docker exec -it spark-iceberg spark-shell
sql
docker exec -it spark-iceberg spark-sql
bash
docker exec -it spark-iceberg pyspark
要停止一切,只需运行docker-compose down
。
故障排除和维护
刷新 Docker 镜像
将预先构建好的spark镜像上传到Dockerhub,为了方便,镜像标签默认为latest
。
如果您有旧版本的图像,则可能需要将其删除才能升级。
bash
docker image rm tabulario/spark-iceberg && docker-compose pull
在本地构建 Docker 映像
如果您想更改本地文件并进行测试,您可以在本地构建图像并使用它:
bash
docker image rm tabulario/spark-iceberg && docker-compose build
Dockerfile
在此 Repo 中使用
要直接使用此 repo 中的 Dockerfile(而不是拉取预构建tabulario/spark-iceberg
映像),您可以使用docker-compose build
。
部署变更
要将更改部署到托管的 docker 映像tabulario/spark-iceberg
,请运行以下命令。(需要访问 tabulario docker hub 帐户)
bash
cd spark
docker buildx build -t tabulario/spark-iceberg --platform=linux/amd64,linux/arm64 . --push
有关开始使用 Iceberg 的更多信息,请查看官方文档中的快速入门指南。
Docker 镜像的存储库位于 dockerhub 上。