将json数据导入到ES集群——解决方案对比&填坑日记

需求

将写好的json数据。导入到es集群

数据说明

文件JSON数据,一行一个JSON。

复制代码
{"id":"d2716ae8fba4e026c4bd9445c3f49e2c","lang":"zh","title":"吉美旅馆","content":"吉美..."}`
`{"id":"d2716ae8fba4e026c4bd9445c3f49e2d","lang":"zh","title":"大话西游","content":"大话西游..."}`
`

背景说明

ES 版本 8.X,开启了密码认证

使用elasticsearchDump 工具把json数据导入到ES集群中。

遇到的坑与解决方法

方案1:dump工具

工具:https://github.com/elasticsearch-dump/elasticsearch-dump

坑1 :由于ES密码中有特殊符号。在使用dump工具的时候。命令如下

复制代码
elasticdump \`
`  --input=/u01/isi/data/baike_result/1/baike_info_html_9.jsonl_step2 \`
`  --output="http://elastic:abcd%12%34@localhost:9200/self_index"`
`

报错如下 :URI malformed

复制代码
Mon,` `06 Nov 2023` `11:59:20 GMT | starting dump`
`Mon,` `06 Nov 2023` `11:59:20 GMT | got 100 objects from source file (offset:` `0)`
`Mon,` `06 Nov 2023` `11:59:20 GMT | Error Emitted => URI malformed`
`Mon,` `06 Nov 2023` `11:59:20 GMT | Error Emitted => URI malformed`
`Mon,` `06 Nov 2023` `11:59:20 GMT | Total Writes:` `0`
`Mon,` `06 Nov 2023` `11:59:20 GMT | dump ended with error (get phase) => URIError: URI malformed`
`

导致此问题的原因 :因为密码中有特殊符号。

解决方案看这里:elasticsearch - How to solve malformed URI while using elasticdump? - Stack Overflow

方案里边说:需要把密码转ascll码。但是我测了没用,可能是因为百分号导致的。

我的最终解决方案是 ,在ES中新加了一个用户,不添加特殊符号。这种靠谱一些。但是操作起来,如果不熟悉ES的鉴权,也是很麻烦的。

Security APIs | Elasticsearch Guide [8.10] | Elastic这里是ES的添加用户的文档。

注意先添加权限,再配置角色,在添加用户。权限赋给角色,角色赋给用户。一通操作下来,还是遇到了问题,最终没能执行下去。

报错如下

复制代码
 status:` `500,`
`  error:` `{`
`    type: 'not_x_content_exception',`
`    reason: 'not_x_content_exception: Compressor detection can only be called on some xcontent bytes or compressed xcontent bytes'`
  `}`
`

问题原因。这里其实是最根本的原因 。可以再看看上边的JSON数据。看起来没有问题,但是这种数据无法被dump工具识别。

我把数据改造了一下,如下所示

复制代码
{"_index":"my_index","_id":"1","_source":{"id":"d2716ae8fba4e026c4bd9445c3f49e2c","lang":"zh","title":"吉美旅馆","content":"吉美..."}}`
`

上边改造后的数据是可以写入的。但是需要做数据改造。也挺麻烦。

复制代码
elasticdump \`
`  --input=/u01/isi/data/baike_result/1/temp.json \`
`  --output=http://elasticinsert:angus123321@localhost:9200/baike_info_test \`
`  --type=data`
`

方案2:logstash工具

转弯掉头。因为改造数据也挺麻烦。特别是在大批量数据下。我决定使用logstash,第一不用决绝用户密码问题。第二不用处理数据

操作步骤如下:

第一步 :下载logstash。下载地址:Logstash 8.8.0 | Elastic

第二步 :上传服务器,并解压。

第三步 :在解压后的conf目录下。添加一个logstash的配置 logstash-self.conf

复制代码
input {`
`  file {`
`  #  path => "/u01/isi/data/result/1/baike_info_html_8.jsonl_step2"`
`    # 这里,我是获取指定目录下,全部的文件`
`    path => ["/u01/isi/data/result/2/*"]`
`    start_position => "beginning"`
`    sincedb_path => "/dev/null"`
`    codec => "json"`
  `}`
`}`

`filter {`
`  # 这里可以定义其他过滤规则。这里我只要json中的这几个字段。`
`  prune {`
`    whitelist_names => ["id",` `"url",` `"content",` `"title",` `"lang"]`
  `}`
`}`

`output {`
`  elasticsearch {`
`    hosts => "http://localhost:9200"`
`    index => "self_index"`
`    user => "elastic"`
`    password => "abcd%12%34"`
`    document_id => "%{id}"`
  `}`
`  # 这里是调试用的。可以看看json数据是否正确。`
`  # stdout {`
`  #  codec => rubydebug`
`  #}`
`}`
`

第四步 :启动开始做数据导入

复制代码
 到解压后的目录中,可以看到bin目录和conf目录。以后台的方式启动任务。日志会打印到当前目录中的 out.log 文件中。`
 `nohup bin/logstash -f  ./conf/logstash-self.conf   >> out.log &`
 
` 如果想结束任务。则使用 ps -ef |grep logstash 即可看到任务进程,使用kill -9 任务id即可结束任务。`
`
相关推荐
苏-言20 分钟前
Linux环境下的Java项目部署技巧:安装 Mysql
linux·运维·mysql
lljss20201 小时前
在 WSL2 中重启 Ubuntu 实例
linux·运维·ubuntu
神秘剑客_CN3 小时前
使用windows笔记本让服务器上网
运维·服务器·windows
sunny_liangzilong3 小时前
为何 git 默认是 master分支,而github默认是main分支(DeepSeek问答)
git·github
yangshuo12815 小时前
git安装flutter
git·flutter
黑牛先生5 小时前
【Linux】动静态库
linux·运维·服务器
vortex55 小时前
Shell基础:中括号的使用
linux·运维·bash·shell
基哥的奋斗历程5 小时前
Docker 常用命令
运维·docker·容器
16年上任的CTO6 小时前
git基础使用--4---git分支和使用
git·gitee·git分支
16年上任的CTO6 小时前
git基础使用--1--版本控制的基本概念
git·gitee·版本控制