Day02-ES集群常见术语,索引管理,文档管理,IK分词器,数据类型映射及kibana环境安装

Day02-ES集群常见术语,索引管理,文档管理,IK分词器,数据类型映射及kibana环境安装

  • 1、昨日内容回顾
  • 2、今日内容预告
  • 3、ES的常见术语
  • 4、索引管理
    • [4.1 查看索引](#4.1 查看索引)
    • [4.2 创建索引](#4.2 创建索引)
    • [4.3 修改索引](#4.3 修改索引)
    • [4.4 删除索引](#4.4 删除索引)
    • [4.5 索引别名](#4.5 索引别名)
    • [4.6 关闭索引](#4.6 关闭索引)
    • [4.7 打开索引](#4.7 打开索引)
    • [4.8 索引的其他操作](#4.8 索引的其他操作)
    • [4.9 索引规范](#4.9 索引规范)
  • 5、Restful风格程序
  • 6、文档的基础操作
    • [6.1 创建文档](#6.1 创建文档)
    • [6.2 文档修改](#6.2 文档修改)
    • [6.3 文档的查看](#6.3 文档的查看)
    • [6.4 删除文档](#6.4 删除文档)
    • [6.5 文档的批量操作](#6.5 文档的批量操作)
  • 7、使用映射(mapping)自定义数据类型
    • [7.1 映射的数据类型](#7.1 映射的数据类型)
    • [7.2 IP案例](#7.2 IP案例)
    • [7.3 date案例](#7.3 date案例)
    • [7.4 综合案例](#7.4 综合案例)
  • 8、分词器
    • [8.1 内置的标准分词器-分析英文](#8.1 内置的标准分词器-分析英文)
    • [8.2 内置的标准分词器-分析中文并不友好](#8.2 内置的标准分词器-分析中文并不友好)
    • [8.3 安装IK分词器](#8.3 安装IK分词器)
    • [8.4 自定义IK分词器的字典](#8.4 自定义IK分词器的字典)
  • 9、安装kibana集成ES集群

1、昨日内容回顾

  • 部署方式:

    • rpm:

      redhat , centos, suse

    • 二进制部署:

      大部分的Linux发行版。

  • linux的资源限制

    • 查看工具:
      ulimit
    • 配置文件

      /etc/security/limit.d/*.conf

  • 内核修改

    • 查看工具:
      sysctl -w|-p|-f|-q
    • 配置文件:

      /etc/sysctl.d/*.conf

  • 系统脚本

    • 管理工具
      systemctl
    • 配置文件

      systemctl cat es7

  • 排错技巧:

    • systemctl status es7 -l
    • journalctl -u es7
      • tail -100f $ES_HOME/logs/xxx.log
      • at
      • ERROR
  • 图形化工具

    • elasticsearch head:
      作为ES集群的客户端,发起请求。用户只需要在web界面做操作即可。
    • postman:

      作为ES集群的客户端,需要使用者发起http请求,一般用于http测试。

2、今日内容预告

  • ES集群的常见术语

    • 索引
    • 分片
    • 副本
    • 文档
  • ES集群的API基础操作

  • DSL查询

  • ES原理篇

3、ES的常见术语

  • 索引(index):

    • 用户写入ES集群的逻辑单元。
  • 分片(shard):

    • 一个索引最少一个分片。
    • 将索引的数据分布式的存储在ES集群。
  • 副本(replica):

    • 一个分片可以有0个或多个副本。
    • 为同一个分片数据提供数据冗余。
  • 文档(docment):

    • 实际存储数据的媒介。
    • 这些文档存储在分片中。
  • 主分片和副本分片的区别:

    • 主分片可以用于读写操作(rw)。
    • 副本分片仅能用于读取操作(ro)。
  • 集群的颜色:

    • green
      表示所有的主分片和副本分片均正常工作。
    • yellow
      表示有部分副本分片不正常工作。
    • red
      表示有部分主分片不正常工作。

4、索引管理

4.1 查看索引

(1)查看所有的索引

bash 复制代码
curl -X GET 10.0.0.101:9200/_cat/indices

(2)查看单个索引

bash 复制代码
curl -X GET 10.0.0.101:9200/oldboyedu-linux85-ip

4.2 创建索引

(1)创建默认索引,默认是一个分片和一个副本

bash 复制代码
curl -X PUT 10.0.0.101:9200/oldboyedu-linux85

(2)创建指定的分片

bash 复制代码
curl -XPUT 10.0.0.101:9200/oldboyedu-linux86
{
  "settings":{
      "number_of_shards": 3
  }
}

(3)创建指定的分片和副本

bash 复制代码
curl -XPUT 10.0.0.101:9200/oldboyedu-linux87-003
{
  "settings":{
      "number_of_shards": 5,
      "number_of_replicas":2
  }
}

4.3 修改索引

(1)修改副本

bash 复制代码
curl -XPUT 10.0.0.101:9200/oldboyedu-linux87-003/_settings
{
  "number_of_replicas": 1
}

(2)修改分片,不能修改

bash 复制代码
curl -XPUT 10.0.0.101:9200/oldboyedu-linux87-003/_settings
{
  "number_of_shards": 10
}

【文档写入哪个分片编号计算公式: hash(文档ID) % primary_shards_numbers】

4.4 删除索引

(1)删除单个索引

bash 复制代码
curl -XDELETE 10.0.0.101:9200/oldboyedu-linux87-003

(2)基于通配符删除多个索引

bash 复制代码
curl -XDELETE 10.0.0.101:9200/oldboyedu-linux87-*

4.5 索引别名

(1)添加索引别名

bash 复制代码
POST http://10.0.0.101:9200/_aliases
{
  "actions": [
      {
          "add": {
              "index": "oldboyedu-linux85",
              "alias": "Linux2023"
          }
      },
       {
          "add": {
              "index": "oldboyedu-linux86",
              "alias": "Linux2023"
          }
      },
       {
          "add": {
              "index": "oldboyedu-linux87",
              "alias": "Linux2023"
          }
      }
  ]
}

(2)查看索引别名

bash 复制代码
GET http://10.0.0.101:9200/_aliases

(3)删除索引别名

bash 复制代码
POST http://10.0.0.101:9200/_aliases
{
    "actions": [
        {
            "remove": {
                "index": "oldboyedu-linux87",
                "alias": "Linux2023"
            }
        }
    ]
}

(4)修改索引别名

bash 复制代码
POST http://10.0.0.101:9200/_aliases
{
    "actions": [
        {
            "remove": {
                "index": "oldboyedu-linux85",
                "alias": "DBA"
            }
        },
         {
            "add": {
                "index": "oldboyedu-linux85",
                "alias": "数据库运维工程师"
            }
        }
    ]
}

4.6 关闭索引

bash 复制代码
POST 10.0.0.101:9200/oldboyedu-linux85/_close

4.7 打开索引

bash 复制代码
POST 10.0.0.101:9200/oldboyedu-linux85/_open

4.8 索引的其他操作

推荐阅读:https://www.elastic.co/guide/en/elasticsearch/reference/current/indices.html

4.9 索引规范

索引名称不要以"."开头,""开头;以"."开头表示隐藏索引,""开头是系统保留的一些动作处理方法

索引名称不能出现大写,必须小写;

生产环境中禁令避免使用通配符,尤其是删除操作;

5、Restful风格程序

bash 复制代码
https://www.oldboyedu.com/stadent/1001
	GET :
			https://www.oldboyedu.com/stadent/view_1001
			https://www.oldboyedu.com/stadent/get_1001
	POST:
			https://www.oldboyedu.com/stadent/create_1001
			https://www.oldboyedu.com/stadent/write_1001
			https://www.oldboyedu.com/stadent/add_1001
	PUT:
			https://www.oldboyedu.com/stadent/modify_1001
			https://www.oldboyedu.com/stadent/update_1001
	DELTE:
			https://www.oldboyedu.com/stadent/del_1001
			https://www.oldboyedu.com/stadent/delete_1001
			https://www.oldboyedu.com/stadent/remove_1001

RESTFUL是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义。

REST(英文:Representational State Transfer,简称REST)描述了一个架构样式的网络系统,比如 web 应用程序。

REST首次出现在2000年Roy Fielding的博士论文中,Roy Fielding是HTTP规范的主要编写者之一。

bash 复制代码
JSON语法:
	基础数据类型:
        字符串:
			"oldboyedu"
			"老男孩IT教育"
			"2022"
			""
        数字:
        	0
        	1
        	2
        	...
        布尔值:
        	true
        	false
        空值:
        	null
	
高级数据类型:
	数组:
		["oldboyedu","沙河",2022,null,true,{"school":"oldboyedu","class":"linux80"}]

	对象:
		{"name":"oldboy", "age":40, "address":"北京沙河", "hobby":["Linux","思想课"],"other":null}
		
课堂练习:
	使用json格式记录你的名字(name),年龄(age),学校(school),爱好(hobby),地址(address)。

6、文档的基础操作

6.1 创建文档

1)不指定文档ID

bash 复制代码
POST 10.0.0.101:9200/oldboyedu-linux85-student/_doc
{
  "name": "李文轩",
  "hobby": ["吃鸡","丝袜","rap"]
}

2)指定文档ID

bash 复制代码
POST 10.0.0.101:9200/oldboyedu-linux85-student/_doc/1001
{
  "name": "彭斌北京分斌",
  "hobby": ["浏览网站","小电影","熬夜"]
}

6.2 文档修改

1)全量更新

bash 复制代码
POST 10.0.0.101:9200/oldboyedu-linux85-student/_doc/YhF3SocBX1qpvxZ-PePd
{
    "name": "李文轩2023"
}

2)局部更新

bash 复制代码
POST 10.0.0.101:9200/oldboyedu-linux85-student/_doc/1001/_update
{
    "doc":{
        "age":20,
        "hobby":["抽烟","喝酒","烫头"]
    }
}

6.3 文档的查看

bash 复制代码
GET 10.0.0.101:9200/oldboyedu-linux85-student/_search

6.4 删除文档

bash 复制代码
DELTE 10.0.0.101:9200/oldboyedu-linux85-student/_doc/1001

6.5 文档的批量操作

(1)批量创建

bash 复制代码
POST 10.0.0.101:9200/_bulk
{ "create": { "_index": "oldboyedu-linux85-elk"} }
{ "name": "oldboy","hobby":["Linux","思想课"] }
{ "create": { "_index": "oldboyedu-linux85-elk","_id": 1002} }
{ "name": "振亚老师","hobby":["妹子","吃面"] }
{ "create": { "_index": "oldboyedu-linux85-elk","_id": 1001} }
{ "name": "苍老师","hobby":["家庭主妇"] }
{ "create": { "_index": "oldboyedu-linux85-elk"} }
{ "name": "李导","hobby":["骑车","拍小电影"] }

(2)批量修改

bash 复制代码
POST 10.0.0.101:9200/_bulk
{ "update" : {"_id" : "1001", "_index" : "oldboyedu-linux85-elk"} }
{ "doc" : {"name" : "CangLaoShi"} }
{ "update" : {"_id" : "1002", "_index" : "oldboyedu-linux85-elk"} }
{ "doc" : {"name" : "ZhenYaTeacher"} }

(3)查询文档

bash 复制代码
POST 10.0.0.101:9200/_mget
{
  "docs": [
    {
      "_index": "oldboyedu-linux85-elk",
      "_id": "1001"
    },
    {
      "_index": "oldboyedu-linux85-elk",
      "_id": "1002"
    }
  ]
} 

(4)批量删除

bash 复制代码
POST 10.0.0.101:9200/_bulk
{ "delete" : { "_index" : "oldboyedu-linux85-elk", "_id" : "1001" } }
{ "delete" : { "_index" : "oldboyedu-linux85-elk", "_id" : "1002" } }

课堂练习

  • 将各组的组员信息写入到ES集群,各组员需要包含以下基础信息
    • name
    • age
    • hobby
    • city

7、使用映射(mapping)自定义数据类型

7.1 映射的数据类型

bash 复制代码
当写入文档时,字段的数据类型会被ES动态自动创建,但有的时候动态创建的类型并符合我们的需求。这个时候就可以使用映射解决。

使用映射技术,可以对ES文档的字段类型提前定义我们期望的数据类型,便于后期的处理和搜索.
  text:
       全文检索,可以被全文匹配,即该字段是可以被拆分的。
  keyword:
       精确匹配,必须和内容完全匹配,才能被查询出来。
  ip:
       支持Ipv4和Ipv6,将来可以对该字段类型进行IP地址范围搜索

参考链接:
https://www.elastic.co/guide/en/elasticsearch/reference/7.17/mapping.html
https://www.elastic.co/guide/en/elasticsearch/reference/7.17/mapping-types.html

7.2 IP案例

(1)创建索引时指定映射关系

bash 复制代码
PUT http://10.0.0.101:9200/oldboyedu-linux85-ip
{
  "mappings": {
    "properties": {
      "ip_addr": {
        "type": "ip"
      }
    }
  },
  "settings": {
       "number_of_shards":3,
       "number_of_replicas":0
  }
}

(2)查看索引的映射关系

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-ip

(3)创建测试数据

bash 复制代码
POST 10.0.0.101:9200/_bulk
{ "create": { "_index": "oldboyedu-linux85-ip"} }
{ "ip_addr":"192.168.10.101" }
{ "create": { "_index": "oldboyedu-linux85-ip"} }
{ "ip_addr":"192.168.10.201" }
{ "create": { "_index": "oldboyedu-linux85-ip"} }
{ "ip_addr":"172.31.10.100" }
{ "create": { "_index": "oldboyedu-linux85-ip"} }
{ "ip_addr":"10.0.0.222" }

(4)查看IP的网段

bash 复制代码
GET/POST 10.0.0.101:9200/oldboyedu-linux85-ip/_search
{
    "query":{
        "match":{
            "ip_addr": "192.168.0.0/16"
        }
    }
}

7.3 date案例

(1)创建索引时指定映射关系

bash 复制代码
PUT http://10.0.0.101:9200/oldboyedu-linux85-date
{
  "mappings": {
    "properties": {
      "birthday": {
        "type":   "date",
        "format": "yyyy-MM-dd"
      }
    }
  }
}

(2)查看索引的映射关系

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-date

(3)创建测试数据

bash 复制代码
POST 10.0.0.101:9200/_bulk
{ "create": { "_index": "oldboyedu-linux85-date"} }
{ "name": "oldboy","birthday": "1991-10-01" }
{ "create": { "_index": "oldboyedu-linux85-date"} }
{ "name": "李导","birthday": "2003-05-01" }
{ "create": { "_index": "oldboyedu-linux85-date"} }
{ "name": "振亚","birthday": "1996-05-01" }

(4)查看年龄,从大到小(注意,比较的是数字,数字大的在下面)

bash 复制代码
GET/POST 10.0.0.101:9200/oldboyedu-linux85-date/_search
{
  "sort": { "birthday": "asc"} 
}

7.4 综合案例

(1)创建索引

bash 复制代码
PUT http://10.0.0.101:9200/oldboyedu-linux85-elk-2023

(2)查看索引信息

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-elk-2023

(3)为已创建的索引修改数据类型

bash 复制代码
PUT http://10.0.0.101:9200/oldboyedu-linux85-elk-2023/_mapping
{
    "properties": {
        "name": {
            "type": "text",
            "index": true
        },
        "gender": {
            "type": "keyword",
            "index": true
        },
		"province": {
		    "type": "keyword",
			"index": true
		},
        "city": {
            "type": "keyword",
            "index": false
        },
        "email": {
            "type": "keyword"
        },
        "ip_addr": {
            "type": "ip"
        },
		"birthday": {
			"type":   "date",
			"format": "yyyy-MM-dd"
		}
    }
}

(4)添加测试数据

bash 复制代码
POST http://10.0.0.101:9200/_bulk
{ "create": { "_index": "oldboyedu-linux85-elk-2023"}}
{ "name": "吴明昆","gender":"男性的","telephone":"1111111111","province":"广西","city":"北海市","email":"wumingkun@oldboyedu.com","ip_addr":"192.168.25.201","birthday":"1999-04-05"}
{ "create": { "_index": "oldboyedu-linux85-elk-2023"}}
{ "name": "蒋相宇","gender":"女性的","telephone":"222222222","province":"河南","city":"濮阳市","email":"jiangxiangyu@oldboyedu.com","ip_addr":"192.168.15.31","birthday":"2003-09-05","hobby":["抽烟","喝酒","烫头","足疗"]}

(5)查看数据-基于gender-匹配keyword类型

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-elk-2023/_search
{
    "query":{
        "match":{
            "gender": "女"
        }
    }
}

(6)查看数据-基于name字段搜索-匹配text类型

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-elk-2023/_search
{
    "query":{
        "match":{
            "name": "吴"
        }
    }
}

(7)查看数据-基于email字段搜索-匹配keyword类型

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-elk-2023/_search
{
    "query":{
        "match":{
            "email": "jiangxiangyu@oldboyedu.com"
        }
    }
}

(8)查看数据-基于ip_addr字段搜索-匹配ip类型

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-elk-2023/_search
{
    "query": {
        "match" : {
            "ip_addr": "192.168.15.0/24"
        }
    }
}

(9)查看数据-基于city字段搜索,无法完成,该字段无法被检索

bash 复制代码
GET http://10.0.0.101:9200/oldboyedu-linux85-elk-2023/_search
{
    "query":{
        "match":{
            "city": "濮阳市"
        }
    }
}

8、分词器

8.1 内置的标准分词器-分析英文

bash 复制代码
GET http://10.0.0.101:9200/_analyze
{
    "analyzer": "standard",
    "text": "My name is Jason Yin,  and I'm 18 years old !"
}

温馨提示:
	标准分词器模式使用空格和符号进行切割分词的。

8.2 内置的标准分词器-分析中文并不友好

bash 复制代码
GET http://10.0.0.101:9200/_analyze
{
    "analyzer": "standard",
    "text": "我爱北京天安门!"
}

温馨提示:
	标准分词器默认使用单个汉字进行切割,很明显,并不符合我们国内的使用习惯。

8.3 安装IK分词器

1)创建IK分词器目录

bash 复制代码
mkdir /oldboyedu/softwares/es7/elasticsearch-7.17.5/plugins/ik

2)解压软件包

bash 复制代码
cd /oldboyedu/softwares/es7/elasticsearch-7.17.5/plugins/ik
wget http://192.168.15.253/ElasticStack/day02/softwares/elasticsearch-analysis-ik-7.17.5.zip

unzip elasticsearch-analysis-ik-7.17.5.zip 
rm -f elasticsearch-analysis-ik-7.17.5.zip	

3)重启服务

bash 复制代码
systemctl restart es7

4)测试IK中文分词器

  • 测试IK中文分词器-细粒度拆分
bash 复制代码
GET http://10.0.0.101:9200/_analyze
{
    "analyzer": "ik_max_word",
    "text": "我爱北京天安门!"
}	
  • 测试IK中文分词器-粗粒度拆分
bash 复制代码
GET http://10.0.0.101:9200/_analyze
{
    "analyzer": "ik_smart",
    "text": "我爱北京天安门!"
}

8.4 自定义IK分词器的字典

(1)进入到IK分词器的插件安装目录

bash 复制代码
cd /oldboyedu/softwares/es/plugins/ik/config

(2)自定义字典

bash 复制代码
cat > oldboyedu-linux85.dic <<'EOF'
德玛西亚
艾欧尼亚
亚索
上号
带你飞
贼6
EOF

(3)加载自定义字典

bash 复制代码
vim IKAnalyzer.cfg.xml
...
<entry key="ext_dict">oldboyedu-linux85.dic</entry>

(4)重启ES集群

bash 复制代码
systemctl restart es7

(5)测试分词器

bash 复制代码
GET http://10.0.0.101:9200/_analyze 
{
    "analyzer": "ik_smart",
    "text": "嗨,哥们! 上号,我德玛西亚和艾欧尼亚都有号! 我亚索贼6,肯定能带你飞!!!"
}

9、安装kibana集成ES集群

(1)下载软件包

bash 复制代码
wget http://192.168.15.253/ElasticStack/day02/softwares/kibana-7.17.5-x86_64.rpm

(2)安装kibana

bash 复制代码
	rpm -ivh kibana-7.17.5-x86_64.rpm

(3)修改kibana配置文件

bash 复制代码
vim /etc/kibana/kibana.yml 
...
# 指定kibana监听的主机地址,默认是localhost。
server.host: "0.0.0.0"

# 指定kibana连接ES集群地址
elasticsearch.hosts: ["http://10.0.0.101:9200","http://10.0.0.102:9200","http://10.0.0.103:9200"]

# 指定kibana的界面为中文简体,默认是英文。
i18n.locale: "zh-CN"

(4)启动kibana

bash 复制代码
systemctl enable --now kibana

(5)访问kibana界面

bash 复制代码
http://10.0.0.103:5601/

今日作业:

(1)完成课堂练习并整理思维导图;

(2)各组收集商品10条信息,对应6中不同类型的商品,要求字段如下:

bash 复制代码
- item: text
	代表的是商品的连接。
- title: text
	代表商品的标题。
- price: double
	代表商品的价格。
- type: keyword
	代表商品的类型。
	- dianZiProducts
		电子产品
	- chengRenProducts
		成人用品
	- sheChiProducts
		奢侈品
	- foodProducts
		食品
	- bookProducts
		书籍
	- carProducts
		汽车用品
- group: long
	代表的组名称。可选择为[1-6]
- auther: text
	代表采集数据的姓名。
- birthday: date
	代表作者的出生年月日。
- province: keyword
	代表的是省份。
- city: keyword
	代表的是城市。
- remote_ip: ip
	代表商品的连接服务器IP地址。

初始化:

bash 复制代码
PUT http://10.0.0.101:9200/oldboyedu-linux85-shopping
{
    "mappings": {
        "properties": {
            "item": {
                "type": "text"
            },
            "title": {
                "type": "text"
            },
            "price": {
                "type": "double"
            },
            "type": {
                "type": "keyword"
            },
            "group": {
                "type": "long"
            },
            "auther": {
                "type": "text"
            },
            "birthday": {
                "type": "date",
                "format": "yyyy-MM-dd"
            },
            "province": {
                "type": "keyword"
            },
            "city": {
                "type": "keyword"
            },
            "remote_ip": {
                "type": "ip"
            }
        }
    }
}

添加一条测试数据:

bash 复制代码
{ "create": { "_index": "oldboyedu-linux85-shopping"}}
{"item":"https://item.jd.com/100021537415.html","title":"大疆 DJI Mini 3 Pro (DJI RC 带屏遥控器版) Pro 级迷你航拍机 智能跟随飞行器 专业无损竖拍 大疆无人机","price":5788.00,"type":"electronic product","group":1,"auther":"王磊","birthday":"2000-02-07","province":"河南","city":"洛阳","remote_ip":"211.144.24.221"}
相关推荐
Debroon1 小时前
下一代 AI 搜索引擎 MindSearch:多智能体 + 系统2,模拟人类认知过程的 AI 搜索引擎
人工智能·搜索引擎
Tony Bai1 小时前
使用TLA+形式化验证Go并发程序
大数据·开发语言·人工智能·后端·golang
=6933 小时前
成都跃享未来教育咨询抖音小店成为领域的新锐力量
大数据·人工智能·学习·安全
马常旭文化传媒网4 小时前
上海冷链配送新篇章 华鼎冷链科技以卓越服务餐饮品牌
大数据·人工智能
王百万_5 小时前
【神软大数据治理平台-高级动态SQL(接口开发)】
大数据·数据仓库·sql·sqlserver·金融·database·数据库开发
歌_顿5 小时前
Spark优化经验(1)
大数据
深蓝易网5 小时前
印刷企业实施数字工厂管理系统前要做好哪些准备
大数据·网络·人工智能·云计算·软件工程
DolphinScheduler社区6 小时前
Apache Dolphinscheduler在中创新航的落地与实践
大数据
CopyLower6 小时前
Elasticsearch的基础使用和高阶使用
大数据·elasticsearch·jenkins
嫦娥妹妹等等我6 小时前
ELK 之logstash filter grok常见内置模式
开发语言·elk·c#