Elasticsearch 使用reindex进行数据同步或索引重构

1、批量复制优化

复制代码
POST _reindex
{
  "source": {
    "index": "source",
    "size": 5000
  },
  "dest": {
    "index": "dest"
  }
}

2、提高scroll的并行度优化

复制代码
POST _reindex?slices=5&refresh
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

slices大小设置注意事项:

1)slices大小的设置可以手动指定,或者设置slices设置为auto,auto的含义是:针对单索引,slices大小=分片数;针对多索引,slices=分片的最小值。

2)当slices的数量等于索引中的分片数量时,查询性能最高效。slices大小大于分片数,非但不会提升效率,反而会增加开销。

3)如果这个slices数字很大(例如500),建议选择一个较低的数字,因为过大的slices 会影响性能。

效果

实践证明,比默认设置reindex速度能提升10倍+。

3、条件查询以及部分字段同步

复制代码
{
  "source": {
    "index": "maindata",
    "_source": [ //查询字段
      "dataId",
      "website"
    ],
    "query": {
      "match_phrase": {
        "teamId": 3
      }
    },
    "excludes": [ "column1","column2" ] //排除字段
  },
  "dest": {
    "index": "maindatagroup",
    "version_type": "internal"
  }
}

说明:

"version_type": "internal",internal表示内部的,省略version_type或version_type设置为 internal 将导致 Elasticsearch 盲目地将文档转储到目标中,覆盖任何具有相同类型和 ID 的文件。

这也是最常见的重建方式。

4、从远程中重建索引

复制代码
POST _reindex
{
  "source": {
    "remote": {
      "host": "http://otherhost:9200",
      "username": "user",
      "password": "pass",
      "socket_timeout": "1m",
      "connect_timeout": "10s"
    },
    "index": "source",
    "query": {
      "match": {
        "test": "data"
      }
    }
  },
  "dest": {
    "index": "dest"
  }
}

注:需要给新的es配置白名单:reindex.remote.whitelist: "172.16.76.147:9200"

5、重构数据之取余

将publicsentimenthot 数据通过organId 取余2 ,把数据分配到相应的索引上

复制代码
POST  _reindex
{
  "source": {
    "index": "publicsentimenthot",
    "size": 1000
  },
  "dest": {
    "index": "pubtest_0",
    "op_type": "create"
  },
  "script": {
    "lang": "painless",
    "source": "ctx._index = 'pubtest_' + (ctx._source.organId ?: 0) % 2;"
  }
}

6、查询reindex任务

(1)获取reindex任务列表
复制代码
GET _tasks?detailed=true&actions=*reindex
(2)根据任务id查看任务
复制代码
GET _tasks/r1A2WoRbTwKZ516z6NEs5A:36619

注: r1A2WoRbTwKZ516z6NEs5A:36619 为任务列表的id

(2)取消任务
复制代码
POST _tasks/r1A2WoRbTwKZ516z6NEs5A:36619/_cancel

7、logstash 按照数据id重构索引

复制代码
input {
  elasticsearch {
    hosts => ["第一个集群地址"]
    index => "源索引名称"
    query => '{"query": {"match_all": {}}}'
    size => 1000
    scroll => "5m"
    docinfo => true
  }
}

filter {
  ruby {
    code => "
      organ_id = event.get('organId').to_i rescue 0
      target_index = '目标索引前缀_' + (organ_id % 10).to_s
      event.set('[@metadata][target_index]', target_index)
    "
  }
}

output {
  elasticsearch {
    hosts => ["第二个集群地址"]
    index => "%{[@metadata][target_index]}"
    document_id => "%{[@metadata][_id]}"
  }
}
相关推荐
Python_Study202518 小时前
制造业企业如何构建高效数据采集系统:从挑战到实践
大数据·网络·数据结构·人工智能·架构
驭白.19 小时前
敏捷与韧性:新能源汽车智慧供应链的协同网络
大数据·人工智能·自动化·汽车·数字化转型·新能源汽车
tjjucheng19 小时前
专业小程序定制开发公司推荐
大数据·小程序
qq_124987075319 小时前
基于SSM框架的智能密室逃脱信息管理系统(源码+论文+部署+安装)
java·大数据·人工智能·spring boot·后端·毕业设计·计算机毕业设计
no245441019 小时前
RAGFlow 全面接入 MinerU 2.0,支持 pipeline、vlm-transformers、vlm-sglang 三种模式,解析精度大幅度up
java·大数据·人工智能·python·ai·sglang
Hello.Reader19 小时前
CSV Format Flink / PyFlink 读写 CSV 的正确姿势(含 Schema 高级配置)
大数据·python·flink
Leo.yuan19 小时前
一次讲清五种常见BOM类型:工程BOM、制造BOM、计划BOM、成本BOM、服务BOM
大数据·产品运营·制造·bom
星火开发设计19 小时前
深入浅出HDFS:分布式文件系统核心原理与实践解析
大数据·数据库·hadoop·学习·hdfs·分布式数据库·知识
一点 内容19 小时前
智汇前沿,印创未来:2026中国五大专业印刷展会全景洞察与战略导航
大数据·人工智能·物联网
中科天工20 小时前
解锁效率革命:智能包装的工业4.0实践
大数据·人工智能·智能