工作纪实36-ES跨集群迁移

1.es数据备份、恢复

https://blog.csdn.net/andy_only/article/details/111319175

2.reindex命令

https://codeleading.com/article/40964498185/

添加配置、重启ES

shell 复制代码
cd bin
sh elasticsearch -d

3.开源工具

https://github.com/elasticsearch-dump/elasticsearch-dump

4.logstash

shell 复制代码
[work()@tjtxvm176-239-170 config]$ cd ..
[work()@tjtxvm176-239-170 logstash-5.6.16]$ sh ^C
[work()@tjtxvm176-239-170 logstash-5.6.16]$ ./bin/logstash -f config/logstash-es-migrate.conf 

注意logstash 跟ES的匹配版本

logstash-5.6.16 376,800,历时 3分20秒,1884每秒,3个小时能迁完

bin/logstash -f config/logstash-sample.conf

input{
    elasticsearch{
        # 源端地址
        hosts =>  ["http://source:9200"]
        # 安全集群配置登录用户名密码
        # user => "xxxx"
        # password => "xxxx"
        # 需要迁移的索引列表,以逗号分隔
        index => "omd_v6"
        # 以下三项保持默认即可,包含线程数和迁移数据大小和logstash jvm配置相关
        docinfo=>true
        # slices => 10
        # size => 200
    }
}

filter {
  # 去掉一些logstash自己加的字段
  mutate {
    remove_field => ["@timestamp", "@version"]
  }
}

output{
    elasticsearch{
        # 目的端es地址
        hosts => ["http://target:9200"]
        # 目的端索引名称,以下配置为和源端保持一致
        # index => "%{[@metadata][_index]}"
        index => "omd_v4"
        # 目的端索引type,以下配置为和源端保持一致
        document_type => "%{[@metadata][_type]}"
        # 目标端数据的_id,如果不需要保留原_id,可以删除以下这行,删除后性能会更好
        document_id => "%{[@metadata][_id]}"
        # ilm_enabled => false
        # manage_template => false
    }
    
    # 调试信息,正式迁移去掉
    # stdout { codec => rubydebug { metadata => true }}
}

https://www.elastic.co/guide/en/logstash/6.7/plugins-inputs-elasticsearch.html?spm=a2c4e.10696291.0.0.34dd19a4GGsCSh

https://bbs.huaweicloud.com/blogs/265963

https://www.51cto.com/article/704537.html

5.写程序

自由发挥

logstash效率最高,elastcidump受限于node环境

相关推荐
Elasticsearch20 小时前
通用表达式语言 ( CEL ): CEL 输入如何改进 Elastic Agent 集成中的数据收集
elasticsearch
武子康1 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康2 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP3 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库3 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟3 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长3 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城3 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark