四、IK分词器(elasticsearch插件)
IK分词器:中文分词器
分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一一个匹配操作,默认的中文分词是将每个字看成一个词 (不使用用IK分词器的情况下),比如"我爱狂神"会被分为"我","爱","狂","神" ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。
IK提供了两个分词算法 : ik_smart
和ik_max_word
,其中ik_smart
为最少切分 , ik_max_word
为最细粒度划分!
1、下载
版本要与ElasticSearch版本对应
下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
2、安装
ik文件夹是自己创建的
加压即可(但是我们需要解压到ElasticSearch的plugins目录ik文件夹下)
data:image/s3,"s3://crabby-images/1e4b3/1e4b3205bd6e813bcc781ad0cad540e9e319a1c5" alt=""
3、重启ElasticSearch
加载了IK分词器
data:image/s3,"s3://crabby-images/ca816/ca81626d16e4f1f8e71f17a4ffc63e14cad99cfa" alt=""
data:image/s3,"s3://crabby-images/4fa36/4fa36582749ef842b94e6c9436c558d90eea7d3e" alt=""
4、使用 ElasticSearch安装补录/bin/elasticsearch-plugin
可以查看插件
data:image/s3,"s3://crabby-images/7ff9a/7ff9af0b0d9b507c00e87d879280a4a0073ff419" alt=""
shell
elasticsearch-plugin list
data:image/s3,"s3://crabby-images/79510/7951068e81ae725b34769fda5543bafe3331ec3e" alt=""
5、使用kibana测试
data:image/s3,"s3://crabby-images/4e3a6/4e3a6d82b03a80160b4cf3f99a29a4bbe2ca6fd5" alt=""
ik_smart:最少切分
data:image/s3,"s3://crabby-images/66d7f/66d7f5aabb817ed1c8965a90acdfd6de8d09ad2a" alt=""
ik_max_word:最细粒度划分(穷尽词库的可能)
data:image/s3,"s3://crabby-images/c2672/c2672a93404aaab85a0dd029708471bb6dc611fc" alt=""
从上面看,感觉分词都比较正常,但是大多数,分词都满足不了我们的想法,如下例
data:image/s3,"s3://crabby-images/81a52/81a52a8727a804c781f21e6711bfd437aed492e4" alt=""
那么,我们需要手动将该词添加到分词器的词典当中
6、添加自定义的词添加到扩展字典中
elasticsearch目录/plugins/ik/config/IKAnalyzer.cfg.xml
打开 IKAnalyzer.cfg.xml
文件,扩展字典
data:image/s3,"s3://crabby-images/026db/026db38d35bdc0ee5fdc46a7b7e4df4e0722424f" alt=""
创建字典文件,添加字典内容
data:image/s3,"s3://crabby-images/b5c4e/b5c4e45b2b554abce609a83e514e92a4cfcb86b6" alt=""
data:image/s3,"s3://crabby-images/3b927/3b927b68b4f00e467cfeeaf9b97c67de2432dce8" alt=""
重启ElasticSearch,再次使用kibana测试
data:image/s3,"s3://crabby-images/bda0b/bda0b1a6d87c53207889e53a67fc77ef462b3ad5" alt=""
分词器生效
data:image/s3,"s3://crabby-images/45f47/45f47312571698a393fafd3c2f5a555323ff5c69" alt=""
data:image/s3,"s3://crabby-images/9102f/9102f156a85caf15913faa731a9c3294b7d2ea54" alt=""
五、Rest风格说明
一种软件架构风格 ,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁 ,更有层次 ,更易于实现缓存等机制。
1、基本Rest命令说明:
method | url地址 | 描述 |
---|---|---|
PUT(创建,修改) | localhost:9200/索引名称/类型名称/文档id | 创建文档(指定文档id) |
POST(创建) | localhost:9200/索引名称/类型名称 | 创建文档(随机文档id) |
POST(修改) | localhost:9200/索引名称/类型名称/文档id/_update | 修改文档 |
DELETE(删除) | localhost:9200/索引名称/类型名称/文档id | 删除文档 |
GET(查询) | localhost:9200/索引名称/类型名称/文档id | 查询文档通过文档ID |
POST(查询) | localhost:9200/索引名称/类型名称/文档id/_search | 查询所有数据 |
2、测试
1)创建一个索引,添加
json
PUT /test1/type1/1
{
"name" : "LBJ",
"age" : 23
}
data:image/s3,"s3://crabby-images/8fbd5/8fbd5a015eeee02913931f283affa6e4b87267db" alt=""
data:image/s3,"s3://crabby-images/d357e/d357e8e0f55c78a49d49ad34c5b3808b46cdc047" alt=""
2)字段数据类型
- 字符串类型
- text、keyword
- text:支持分词,全文检索,支持模糊、精确查询,不支持聚合,排序操作;text类型的最大支持的字符长度无限制,适合大字段存储;
- keyword:不进行分词,直接索引、支持模糊、支持精确匹配,支持聚合、排序操作。keyword类型的最大支持的长度为------32766个UTF-8类型的字符,可以通过设置ignore_above指定自持字符长度,超过给定长度后的数据将不被索引,无法通过term精确匹配检索返回结果。
- text、keyword
- 数值型
- long、Integer、short、byte、double、float、half float 、scaled float
- 日期类型
- date
- te布尔类型
- boolean
- 二进制类型
- binary
- 等等...
3)指定字段的类型(使用PUT)
类似于建库(建立索引和字段对应类型),也可看做规则的建立
json
PUT /test2
{
"mappings": {
"properties": {
"name": {
"type": "text"
},
"age":{
"type": "long"
},
"birthday":{
"type": "date"
}
}
}
}
data:image/s3,"s3://crabby-images/83705/83705f192e28a4eac6912823da8328dbbdff99c3" alt=""
4)获取3建立的规则
json
GET test2
data:image/s3,"s3://crabby-images/67509/675091e549db6e2e8deedd21602321696291cf68" alt=""
5)获取默认信息
_doc
默认类型(default type),type 在未来的版本中会逐渐弃用,因此产生一个默认类型进行代替
json
PUT /test3/_doc/1
{
"name": "流柚",
"age": 18,
"birth": "1999-10-10"
}
GET test3
data:image/s3,"s3://crabby-images/ec85d/ec85d5d40f483e5e0157979d29d0a7100d8e209a" alt=""
如果自己的文档字段没有被指定,那么ElasticSearch就会给我们默认配置字段类型
扩展:通过get _cat/
可以获取ElasticSearch的当前的很多信息!
json
GET _cat/indices
GET _cat/aliases
GET _cat/allocation
GET _cat/count
GET _cat/fielddata
GET _cat/health
GET _cat/indices
GET _cat/master
GET _cat/nodeattrs
GET _cat/nodes
GET _cat/pending_tasks
GET _cat/plugins
GET _cat/recovery
GET _cat/repositories
GET _cat/segments
GET _cat/shards
GET _cat/snapshots
GET _cat/tasks
GET _cat/templates
GET _cat/thread_pool
6)修改
两种方案
①旧的(使用put覆盖原来的值)
- 版本+1(_version)
- 但是如果漏掉某个字段没有写,那么更新是没有写的字段 ,会消失
json
PUT /test3/_doc/1
{
"name" : "流柚是我的大哥",
"age" : 18,
"birth" : "1999-10-10"
}
GET /test3/_doc/1
// 修改会有字段丢失
PUT /test3/_doc/1
{
"name" : "流柚"
}
GET /test3/_doc/1
data:image/s3,"s3://crabby-images/52222/522228bd4ac72da30536286e5324112555ff610f" alt=""
data:image/s3,"s3://crabby-images/77a64/77a64743991d0e1bc13ab4f854be63c8ccbbfdf4" alt=""
data:image/s3,"s3://crabby-images/25554/255546b97f63309d2b2307118ae99f1e51147f69" alt=""
②新的(使用post的update)
- version不会改变
- 需要注意doc
- 不会丢失字段
json
POST /test3/_doc/1/_update
{
"doc":{
"name" : "post修改,version不会加一",
"age" : 2
}
}
GET /test3/_doc/1
data:image/s3,"s3://crabby-images/f0089/f0089e115de39050cf6fffec5e414b7fc48140e2" alt=""
data:image/s3,"s3://crabby-images/cf6ec/cf6ec555dff6eed5c2931a144bc8f5e08da79855" alt=""
7)删除
json
GET /test1
DELETE /test1
data:image/s3,"s3://crabby-images/ff140/ff140ab856607dba313d0b45c3e74760636b26cb" alt=""
8)查询(简单条件)
json
GET /test3/_doc/_search?q=name:流柚
data:image/s3,"s3://crabby-images/ad534/ad534271d089d7b9b68bf9b06d354cd333705eae" alt=""
9)复杂查询
test3索引中的内容
data:image/s3,"s3://crabby-images/478ad/478addbedd542bad6e9ecef7bab3b49b7e9eb0b9" alt=""
①查询匹配
match
:匹配(会使用分词器解析(先分析文档,然后进行查询))_source
:过滤字段sort
:排序form
、size
分页
json
// 查询匹配
GET /blog/user/_search
{
"query":{
"match":{
"name":"流"
}
}
,
"_source": ["name","desc"]
,
"sort": [
{
"age": {
"order": "asc"
}
}
]
,
"from": 0
,
"size": 1
}
data:image/s3,"s3://crabby-images/a4f18/a4f18521ed38fa5bedb3ea4751d5062f98202bfc" alt=""
data:image/s3,"s3://crabby-images/74618/74618ac17cad3d94ebd6919d937c5d3a231f9ead" alt=""
data:image/s3,"s3://crabby-images/e1584/e1584f10550620d7b07b899f4a3bcf32b7fe5676" alt=""
②多条件查询(bool)
must
相当于and
should
相当于or
must_not
相当于not (... and ...)
filter
过滤
json
/// bool 多条件查询
must <==> and
should <==> or
must_not <==> not (... and ...)
filter数据过滤
boost
minimum_should_match
GET /blog/user/_search
{
"query":{
"bool": {
"must": [
{
"match":{
"age":3
}
},
{
"match": {
"name": "流"
}
}
],
"filter": {
"range": {
"age": {
"gte": 1,
"lte": 3
}
}
}
}
}
}
data:image/s3,"s3://crabby-images/2ab54/2ab54ac828a0cd59f9990a000847797b2eb814fa" alt=""
data:image/s3,"s3://crabby-images/5370f/5370f80cf43132a02cc3dfb1ad97c605fd5fc730" alt=""
③匹配数组
- 貌似不能与其它字段一起使用
- 可以多关键字查(空格隔开)--- 匹配字段也是符合的
match
会使用分词器解析(先分析文档,然后进行查询)- 搜词
json
// 匹配数组 貌似不能与其它字段一起使用
// 可以多关键字查(空格隔开)
// match 会使用分词器解析(先分析文档,然后进行查询)
GET /test3/user/_search
{
"query":{
"match":{
"desc":"詹 库 杜"
}
}
}
data:image/s3,"s3://crabby-images/024ed/024edb3c03591ef6cc04e2fb1f2ef8583e34b1ee" alt=""
data:image/s3,"s3://crabby-images/a5a5f/a5a5f9a214369dbaca668cfc334471f3c64a5ff8" alt=""
data:image/s3,"s3://crabby-images/e5878/e58788c9f69ea0cb645cfdf109133c8e3cc8eaa5" alt=""
④精确查询
term
直接通过 倒排索引 指定词条查询- 适合查询 number、date、keyword ,不适合text
json
// 精确查询(必须全部都有,而且不可分,即按一个完整的词查询)
// term 直接通过 倒排索引 指定的词条 进行精确查找的
GET /blog/user/_search
{
"query":{
"term":{
"desc":"年 "
}
}
}
data:image/s3,"s3://crabby-images/64fc2/64fc26dc43427841869416ffb05d24b3fc511f86" alt=""
有空格
data:image/s3,"s3://crabby-images/074b4/074b45b0a69bd84c7f6d6f2353908c4f2cf8bb82" alt=""
没有空格
data:image/s3,"s3://crabby-images/8befc/8befcc4f528bf56f2880a90f0e8344e361d0b039" alt=""
⑤text和keyword
- text:
- 支持分词 ,全文检索、支持模糊、精确查询,不支持聚合,排序操作;
- text类型的最大支持的字符长度无限制,适合大字段存储;
- keyword:
- 不进行分词 ,直接索引、支持模糊、支持精确匹配,支持聚合、排序操作。
- keyword类型的最大支持的长度为------32766个UTF-8类型的字符,可以通过设置ignore_above指定自持字符长度,超过给定长度后的数据将不被索引,无法通过term精确匹配检索返回结果。
json
// 测试keyword和text是否支持分词
// 设置索引类型
PUT /test
{
"mappings": {
"properties": {
"text":{
"type":"text"
},
"keyword":{
"type":"keyword"
}
}
}
}
// 设置字段数据
PUT /test/_doc/1
{
"text":"测试keyword和text是否支持分词",
"keyword":"测试keyword和text是否支持分词"
}
// text 支持分词
// keyword 不支持分词
GET /test/_doc/_search
{
"query":{
"match":{
"text":"测试"
}
}
}// 查的到
GET /test/_doc/_search
{
"query":{
"match":{
"keyword":"测试"
}
}
}// 查不到,必须是 "测试keyword和text是否支持分词" 才能查到
GET _analyze
{
"analyzer": "keyword",
"text": ["测试liu"]
}// 不会分词,即 测试liu
GET _analyze
{
"analyzer": "standard",
"text": ["测试liu"]
}// 分为 测 试 liu
GET _analyze
{
"analyzer":"ik_max_word",
"text": ["测试liu"]
}// 分为 测试 liu
data:image/s3,"s3://crabby-images/80c58/80c589ea37da9c35f1a9e943faf630abf589cbf9" alt=""
text支持分词
data:image/s3,"s3://crabby-images/abd2f/abd2f6db7b0c47b657713cb8de33a74edf78c4a9" alt=""
keyword不支持分词
data:image/s3,"s3://crabby-images/94821/9482165519c29d9012b112573fb3fbe121779dda" alt=""
完整
data:image/s3,"s3://crabby-images/7863e/7863e7a96ef6dc4c5c9aa80a49199be842c556b4" alt=""
data:image/s3,"s3://crabby-images/c431c/c431ca4802269de5d429fcdff566a3c6c97e1a5f" alt=""
⑥高亮查询
json
/// 高亮查询
GET blog/user/_search
{
"query": {
"match": {
"name":"流"
}
}
,
"highlight": {
"fields": {
"name": {}
}
}
}
// 自定义前缀和后缀
GET blog/user/_search
{
"query": {
"match": {
"name":"流"
}
}
,
"highlight": {
"pre_tags": "<p class='key' style='color:red'>",
"post_tags": "</p>",
"fields": {
"name": {}
}
}
}
data:image/s3,"s3://crabby-images/c1a26/c1a26a3dd3b8863cc2b4dc7bd407f61225e2a493" alt=""
高亮
data:image/s3,"s3://crabby-images/243c6/243c63d4b2c0476a040fb932d8eb9e1df507c8fc" alt=""
自定义高亮
data:image/s3,"s3://crabby-images/a99ac/a99ace9ec67e23125676d98cfad5ac4cabfa63ae" alt=""
ElasticSearch-IK分词器(elasticsearch插件)安装配置和ElasticSearch的Rest命令测试 到此完结,笔者归纳、创作不易,大佬们给个3连再起飞吧