【技术】记一次 Docker 中的 ES 数据迁移,使用 Reindex API

记一次 Docker 中的 ES 数据迁移,使用 Reindex API

首先声明,是因为环境限制,没有办法使用同步工具,不得已才使用 Reindex API 进行数据同步的。

环境背景

  • Linux
  • Docker:20
  • ElasticSearch:8

需求背景

老的 ES 在 Docker 安装的时候设置的内存太小,导致数据量过大时查询直接内存溢出,容器挂掉。原计划是修改老 ES 的内存配置,奈何最开始安装的时候没有进行挂接,进入到容器中也无法修改,就连 Docker 容器的 json 文件都改了,也不行。所以就直接启动了一个新的 ES 容器,这下把能挂接的目录都挂到宿主机上,方便后续修改。现在问题来了,之前的数据怎么办?要么忍痛割爱,等着系统同步,要么数据迁移。果断选择后者,谁让喜欢折腾呢。

开始迁移

确认老 ES 的访问地址

  • 情况1: 因为老 ES 安装的时候直接使用的主机模式,所以直接用宿主机的IP和对应端口就行。
  • 情况2: 没有使用主机模式,得先查看 Docker 给 ES 分配的 IP 地址。使用docker inspect <容器ID/名称> 查看容器信息。找到NetworkSettings -> NetWorks -> bridge -> IPAddress就可以看到 Docker 给 ES 分配的 IP 地址。

在新 ES 中创建索引的 Mapping (选配)

ES 在数据迁移的时候会自动创建索引,但是 Mapping 不会创建,所以有必要的话可以先在新 ES 中创建索引,并添加 Mapping。如果不需要可以跳过此步骤。

bash 复制代码
curl -X PUT "http://<ES_HOST>:9200/new_index?pretty" -H 'Content-Type: application/json' -d'
{
  "settings": { /* 自定义设置 */ },
  "mappings": { /* 自定义映射 */ }
}
'

在新 ES 中配置老 ES 的地址

编辑 elasticsearch.yml

yaml 复制代码
cluster:
  remote:
    old_cluster:
      seeds: "<源集群容器IP>:9300"

添加配置后,重启容器生效。重启命令:docker restart <容器ID/名称>

开始迁移数据

重启之后,请求新 ES 地址,开始同步数据

bash 复制代码
curl -X POST "http://目标ES_HOST:9200/_reindex?pretty" -H 'Content-Type: application/json' -d'
{
  "source": {
    "remote": { "host": "http://源ES_HOST:9200" },
    "index": "old_index",
    "size": 5000  // 每批迁移文档数
  },
  "dest": { "index": "new_index" }
}
'

如果 ES 有安全认证,需要在 remote 属性中添加认证属性;

json 复制代码
"remote": {
  "host": "http://源ES_HOST:9200",
  "headers": { "Authorization": "ApiKey <Base64编码的API密钥>" }
}

数据验证

bash 复制代码
curl -X GET "http://<ES_HOST>:9200/new_index/_count?pretty" -H 'Content-Type: application/json' -d'
{ "query": { "match_all": {} } }
'

PS:curl 可能用着不舒服,使用 postman 也是可以的,只需要把{}的内容作为请求的 body传递即可,注意改成 JSON 类型。

相关推荐
FLGB26 分钟前
Docker网段和服务器内部网段172.17 网段冲突导致网络不通
服务器·网络·docker
Elastic 中国社区官方博客1 小时前
金融服务公司如何大规模构建上下文智能
大数据·人工智能·elasticsearch·搜索引擎·ai·金融·全文检索
hwj运维之路2 小时前
超详细ubuntu22.04部署k8s1.28高可用(二)【结合ingress实现业务高可用】
运维·云原生·容器·kubernetes
骂我的人都死了2 小时前
DevOps架构部署
运维·ubuntu·docker·k8s·github·devops·python3.11
AL3173 小时前
模拟实现NetDevOps全生命周期自动化网络运维
运维·docker·centos·ensp·netmiko
Alaaaaaaan3 小时前
[DevOps]使用github-action工具部署docker容器(实现提交代码一键推送部署到服务器)
服务器·前端·docker·容器·github
70asunflower3 小时前
Docker exec 命令完全解析
linux·ubuntu·docker
好好沉淀4 小时前
Elasticsearch 中批量更新文档(Update By Query)的标准写法
大数据·elasticsearch
小程故事多_804 小时前
Elasticsearch ES 分词与关键词匹配技术方案解析
大数据·人工智能·elasticsearch·搜索引擎·aigc
念丶小宇4 小时前
Git常用指令
大数据·git·elasticsearch