ElasticSearch数据预处理

文章目录

    • [预处理节点ingest node](#预处理节点ingest node)
    • [Pipeline & Processor](#Pipeline & Processor)
    • [painless script](#painless script)

预处理节点ingest node

ES5.0版本出现的,默认配置下所有节点都是ingest node。可以对index或bulk api 请求进行拦截,对其中数据进行预处理转换,并重新返回index或bulk api。

预处理操作比如:

  • 为某个字段设置默认值
  • 重命名某个字段
  • 对字段值进行split 按某个字符进行拆分操作
  • 支持painless script脚本,对数据进行更加复杂的加工

Logstash也能对数据进行预处理操作,ingest node和Logstash最大的区别就是,ingest node是ES中的概念,只能从es的rest api请求中获取数据,并写入ES;而Logstash支持从不同的数据源读取并写入不同的数据源

Pipeline & Processor

  • pipeline,管道。会对通过的数据按照顺序进行加工。pipeline就是一组processor
  • processor,对加工的行为进行抽象包装

Elasticsearch 有很多内置的Processors,也支持通过插件的方式,实现自己的Processor。

https://www.elastic.co/guide/en/elasticsearch/reference/7.17/ingest-processors.html

一些内置的Processors:

  • Split Processor : 将给定字段值分成一个数组
  • Remove / Rename Processor :移除一个重命名字段
  • Append : 为商品增加一个新的标签
  • Convert:将商品价格,从字符串转换成float 类型
  • Date / JSON:日期格式转换,字符串转JSON对象
  • Date lndex Name Processor︰将通过该处理器的文档,分配到指定时间格式的索引中
  • Fail Processor︰一旦出现异常,该Pipeline 指定的错误信息能返回给用户
  • Foreach Process︰数组字段,数组的每个元素都会使用到一个相同的处理器
  • Grok Processor︰日志的日期格式切割
  • Gsub / Join / Split︰字符串替换│数组转字符串/字符串转数组
  • Lowercase / upcase︰大小写转换

案例,对文档中tags字段中的字符串使用逗号分隔,转换为一个数组字段

bash 复制代码
# 测试 文档中tags字段中的字符串使用逗号分隔,转换为一个数组字段
# _simulate 关键字的作用是模拟,也就是模拟查看我们预处理的结果
POST /_ingest/pipeline/_simulate
{
  "pipeline": {
    "description": "描述信息,将tags字段按逗号分隔",
    "processors": [
      {
        "split": {	# 关键字split就表示对某个字段按某个字符进行拆分  
          "field": "tags",		
          "separator": ","
        }
      }
    ]
  },
  "docs": [			# 指定两个文档数据,这些文档就要经过上面的预处理
    {
      "_index": "index",
      "_id": "1",
      "_source": {
        "title": "Introducing big data......",
        "tags": "hadoop,elasticsearch,spark",
        "content": "You konw, for big data"
      }
    },
    {
      "_index": "index",
      "_id": "2",
      "_source": {
        "title": "Introducing cloud computering",
        "tags": "openstack,k8s",
        "content": "You konw, for cloud"
      }
    }
  ]
}

案例,为文档添加一个字段

bash 复制代码
POST /_ingest/pipeline/_simulate
{
  "pipeline": {
    "description": "描述信息,将tags字段按逗号分隔",
    "processors": [
      {
        "split": {
          "field": "tags",
          "separator": ","
        }
      },
      {
        "set": {
          "field": "views",
          "value": 0
        }
      }
    ]
  },
  "docs": [
    {
      "_index": "index",
      "_id": "1",
      "_source": {
        "title": "Introducing big data......",
        "tags": "hadoop,elasticsearch,spark",
        "content": "You konw, for big data"
      }
    },
    {
      "_index": "index",
      "_id": "2",
      "_source": {
        "title": "Introducing cloud computering",
        "tags": "openstack,k8s",
        "content": "You konw, for cloud"
      }
    }
  ]
}

案例:创建pipeline

在请求的url中就不要使用_simulate模拟关键字了,直接指定一个自定义名字

bash 复制代码
# 创建一个名称为 hs_blog_pipeline 的pipeline
PUT /_ingest/pipeline/hs_blog_pipeline
{
  "description": "描述信息,将tags字段按逗号分隔",
  "processors": [
    {
      "split": {
        "field": "tags",
        "separator": ","
      }
    },
    {
      "set": {
        "field": "views",
        "value": 0
      }
    }
  ]
}

# 查看上方创建的pipeline
GET /_ingest/pipeline

使用pipeline更新数据

在url请求路径中添加pipeline=自定义pipeline名请求参数,表示当前创建的文档需要进行预处理

bash 复制代码
# 不使用pipeline更新数据
PUT tech_blogs/_doc/1
{
  "title":"Introducing big data......",
  "tags":"hadoop,elasticsearch,spark",
  "content":"You konw, for big data"
}

# 使用pipeline更新数据
PUT tech_blogs/_doc/2?pipeline=hs_blog_pipeline
{
  "title": "Introducing cloud computering",
  "tags": "openstack,k8s",
  "content": "You konw, for cloud"
}

借助update_by_query对符合条件的文档进行更新

bash 复制代码
# 必须要POST请求
# 如果不加query查询语句会报错
POST /tech_blogs/_update_by_query?pipeline=hs_blog_pipeline
{
  
}

# 必须要POST请求
# 如果不加query查询语句会报错
# 对不存在views字段的文档进行 指定的预处理操作。此时,上方插入id=1的文档也进行了相关处理操作
POST /tech_blogs/_update_by_query?pipeline=hs_blog_pipeline
{
  "query": {
    "bool": {
      "must_not": [
        {
          "exists": {
            "field": "views"
          }
        }
      ]
    }
  }
}

painless script

painless支持所有java数据类型以及java api接口子集

用途:

  • 可以对文档字段进行加工处理

    • 更新、删除字段;处理数据聚合操作
    • 对返回的字段提前进行处理 script field
    • 对文档的相关性算分进行处理 function script
  • 在ingest pipeline中执行java脚本

  • _reindex API、_update_by_query API时对数据进行处理

通过painless script脚本访问字段

上下文 语法
Ingestion pipeline 语句中 ctx.field_name
Update 修改语句中 ctx._source.field_name
Search & Aggregation 搜索和聚合语句中 doc["field_name"]

在ingest pipeline中使用painless script

bash 复制代码
# 新增了一个script,
POST /_ingest/pipeline/_simulate
{
  "pipeline": {
    "description": "描述信息,将tags字段按逗号分隔",
    "processors": [
      {
        "split": {
          "field": "tags",
          "separator": ","
        }
      },
      {
        "set": {
          "field": "views",
          "value": 0
        }
      },
      {
        "script": {			# 使用script关键字
          "source": """		# 在source中进行java代码的编写,如果只有一条java语句就直接使用双引号,如果换行了就要在前后都加上"""三个
            if(ctx.containsKey("content")){
              ctx.hs_content_length = ctx.content.length();  #Ingestion pipeline 语句中 通过ctx.field_name语法获取文档字段
            }else{
              ctx.hs_content_length = 0;
            }
          """
        }
      }
    ]
  },
  "docs": [
    {
      "_index": "index",
      "_id": "1",
      "_source": {
        "title": "Introducing big data......",
        "tags": "hadoop,elasticsearch,spark",
        "content": "You konw, for big data"
      }
    },
    {
      "_index": "index",
      "_id": "2",
      "_source": {
        "title": "Introducing cloud computering",
        "tags": "openstack,k8s",
        "content": "You konw, for cloud"
      }
    }
  ]
}

在update语句中使用 painless script

bash 复制代码
DELETE tech_blogs
PUT tech_blogs/_doc/1
{
  "title":"Introducing big data......",
  "tags":"hadoop,elasticsearch,spark",
  "content":"You konw, for big data",
  "views":0
}

# 
# 在uodate语句中,获取文档字段的方式为 ctx._source.field_name
POST /tech_blogs/_update/1
{
  "script": {
    "source": "ctx._source.views += params.new_views",		# 通过params. 的方式使用下面定义的参数
    "params": {
      "new_views": 100			# 定义一个参数
    }
  }
}


# 第二种方式,将脚本保存后再使用 hs_update_views为自定义id
POST _scripts/hs_update_views
{
  "script":{
    "lang": "painless",
    "source": "ctx._source.views += params.new_views"
  }
}

POST tech_blogs/_update/1
{
  "script": {
    "id": "hs_update_views",			# 指定上面我们自定义的id
    "params": {
      "new_views":1000
    }
  }
}

在搜索中使用painless script语句,一般不建议在搜索中使用painless script语句对字段值进行操作,这样降低了查询效率。预处理一般是新增文档时进行

bash 复制代码
GET /tech_blogs/_search
{
  "script_fields": {
    "hs_rnd_views": {
      "script": {
        "lang": "painless",
        "source": """
          java.util.Random rnd = new Random();
          doc['views'].value+rnd.nextInt(1000);
        """
      }
    }
  },
  "query": {
    "match_all": {}
  }
}
相关推荐
Data跳动4 小时前
Spark内存都消耗在哪里了?
大数据·分布式·spark
woshiabc1115 小时前
windows安装Elasticsearch及增删改查操作
大数据·elasticsearch·搜索引擎
lucky_syq6 小时前
Saprk和Flink的区别
大数据·flink
lucky_syq6 小时前
流式处理,为什么Flink比Spark Streaming好?
大数据·flink·spark
袋鼠云数栈6 小时前
深入浅出Flink CEP丨如何通过Flink SQL作业动态更新Flink CEP作业
大数据
小白学大数据7 小时前
如何使用Selenium处理JavaScript动态加载的内容?
大数据·javascript·爬虫·selenium·测试工具
15年网络推广青哥7 小时前
国际抖音TikTok矩阵运营的关键要素有哪些?
大数据·人工智能·矩阵
节点。csn8 小时前
Hadoop yarn安装
大数据·hadoop·分布式
arnold668 小时前
探索 ElasticSearch:性能优化之道
大数据·elasticsearch·性能优化
NiNg_1_2349 小时前
基于Hadoop的数据清洗
大数据·hadoop·分布式