Elasticsearch docker-compose 使用 Logstash 从 JSON 文件中预加载数据

在我们创建 Elasticsearch 进行开发时,最简单的办法就是在本地使用 docker-compose 来一键部署一个 Elasticsearch 集群。有时,特别是在准备测试环境时,开发人员希望从一开始就创建包含一些测试数据的数据库容器。我们可以使用 Logstash 来很方便地把数据写入到 Elasticsearch 中。

在我之前的文章 "Elasticsearch:使用 Docker-Compose 启动单节点 Elastic Stack",我有讲到这个方法。在今天的文章中,我们通过另外一种方法来实现。你可以在地址 https://github.com/liu-xiao-guo/elasitcPreloadData 下载所有的代码。

首先,我们项目的根目录下创建一个 .env 的文件。

.env

复制代码
ELASTIC_PASSWORD=DEFAULT
STACK_VERSION=7.17.14
ES_PORT=9203

接下来创建 docker-compose.yaml 配置文件:

docker-compose.yaml

复制代码
version: "2.2"
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:${STACK_VERSION}
    ports:
      - ${ES_PORT}:9200
    environment:
      - node.name=es01
      - cluster.initial_master_nodes=es01
      - ELASTIC_PASSWORD=${ELASTIC_PASSWORD}
      - bootstrap.memory_lock=true
      - xpack.security.enabled=true
    healthcheck:
      test:
        [
          "CMD-SHELL",
          "curl -s -k http://localhost:9200",
        ]
      interval: 10s
      timeout: 10s
      retries: 120
  logstash:
    build:
      context: logstash/
      dockerfile: Dockerfile
    depends_on:
      es01:
        condition: service_healthy
    environment:
      - ELASTICSEARCH_URL=http://es01:9200
      - ELASTICSEARCH_USERNAME=elastic
      - ELASTIC_PASSWORD=${ELASTIC_PASSWORD}
      - XPACK_MONITORING_ENABLED=false

有几点需要注意:

  • 使用 xpack.security.enabled 为 Elasticsearch 启用用户名/密码身份验证。 如果不需要,请将其删除,以便默认值为 false。
  • 健康检查只是为了得到 9200 端口的响应
  • Logstash 将从 Docker 文件构建

Logstash 的 Dockerfile:

logstash/Dockerfile

复制代码
FROM docker.elastic.co/logstash/logstash:7.17.14

COPY importData.conf /usr/share/logstash/pipeline
RUN mkdir /usr/share/logstash/data-test/
COPY testdata.json /usr/share/logstash/data-test/
COPY --chmod=0755 progress.sh /tmp
#Install exec plugin to run shell script in Logstash pipeline
RUN bin/logstash-plugin install logstash-output-exec

ENTRYPOINT ["/usr/local/bin/docker-entrypoint"]

JSON 数据文件应将每个文档包含为一行,如下所示:

复制代码
{"name": "Bobbie", "emailaddress": "Bob@mail2u.org", "address": "1186 Neil Court", "country": "UK", "birthdate": "1995-10-15T01:00:00Z",}
{"name": "Helen", "emailaddress": "Hele@mail.ru", "address": "839 Federal Ridge", "country": "Hungary", "birthdate": "1985-11-03T01:00:00Z"}

要在 Logstash 中运行的管道配置文件应定义输入文件(我们的 JSON 数据测试文件)和输出(插入 Elasticsearch 并运行自定义脚本):

复制代码
input {
  file {
    path => "/usr/share/logstash/data-test/testdata.json"
    mode => "read"
    codec => json { }
    exit_after_read => true
    type => "sample"
  }
}
filter {
  mutate {
    remove_field => [ "log", "@timestamp", "event", "@version" ]
  }
}
output {
    elasticsearch {
        hosts => "${ELASTICSEARCH_URL}"
        index => "test_data"
        user => "elastic"
        password => "${ELASTIC_PASSWORD}"
        ssl_certificate_verification => false
    }
    exec {
      command => "/tmp/progress.sh"
    }
}

Logstash 旨在成为一种监听连续输入流的服务。 通常停止它是没有意义的,因为新数据无论何时到来都应该通过管道进行处理。 然而在这种情况下,我只想 Logstash 导入我的测试数据,然后停止释放资源。

这是我在导入数据后终止 Logstash 容器的一种 hack:

复制代码
#!/bin/bash

CHECK="$ELASTICSEARCH_URL/test_data/_count"
#Expected data test size is 10 documents
CONDITION="\"count\":10"

while [ true ]
do  
   if curl -u $ELASTICSEARCH_USERNAME:$ELASTIC_PASSWORD $CHECK | grep -q "$CONDITION"; then
        #Kill Logstash service so container would stop
        kill $(ps aux | grep 'logstash' | awk '{print $2}')
        break
   else
        echo "Counting documents from Elasticsearch does not return the expected number. Retrying"
        sleep 2
   fi 
done

现在只需 docker-compose up -d ,大约 2 分钟后,Elasticsearch 就会启动并创建索引,其中包含一些文档。

相关推荐
事变天下31 分钟前
奥哲重构电建新范式!AI赋能电力建设全场景智能化升级
大数据·人工智能
Lalolander42 分钟前
设备工程项目如何高效管理项目进度与成本?
大数据·运维·设备工程项目管理·设备工程项目成本管理·工程项目进度管理
钝挫力PROGRAMER44 分钟前
实战经验:如何修复 MariaDB 因 InnoDB 损坏导致的启动失败 (status=6/ABRT)
数据库·mariadb
我是一颗柠檬44 分钟前
【MySQL全面教学】MySQL基础与环境搭建Day1(2026年)
数据库·后端·sql·mysql·database
我是一颗柠檬44 分钟前
【MySQL全面教学】MySQL数据类型详解Day2(2026年)
数据库·后端·sql·mysql·database
一只fish1 小时前
Oracle官方文档翻译《Database Concepts 26ai》第10章-SQL
数据库·oracle
许彰午1 小时前
零跑腿服务的三条核心流程
大数据
jnrjian1 小时前
export partition 的par file
数据库·oracle
多年小白1 小时前
英伟达VR200机柜PCB价值量同比+233%:AI硬件主线如何被引爆?
大数据·人工智能·科技·深度学习·ai
Daorigin_com1 小时前
从“被动领罚”到“主动合规”:强监管时代下,道本科技用数字化为企业筑牢“合规生命线”
大数据·数据仓库·科技·流程图·软件构建·数据库开发·数据库架构