Elasticsearch分词

引言

在信息检索领域，分词是文本处理的基础环节。想象一下图书馆管理员如何整理书籍：如果不按章节标题分类，而是把整本书作为一个不可分割的单位，那么查找特定内容将变得极其低效。Elasticsearch的分词机制就像是一个智能的图书管理员，它懂得如何"拆解"文本，建立高效的索引系统。

一、分词：搜索引擎的"语言理解师"

什么是分词？

分词（Tokenization）是将连续文本切分成有意义的词元（Token）的过程。在Elasticsearch中，这个过程决定了：

索引如何构建：文档被拆分成什么词条存储到倒排索引中
查询如何执行：用户搜索词如何被解析并与索引匹配
相关性如何计算：搜索结果排序的依据

一个简单的例子

原始文本："The quick brown fox jumps over the lazy dog"

经过标准分词后得到：[the, quick, brown, fox, jumps, over, the, lazy, dog]

注意：停用词"the"被保留但通常不影响搜索，所有词都转为小写。

二、分词器的三层架构

Elasticsearch的分词器（Analyzer）是一个流水线处理系统，包含三个关键组件：

复制代码

原始文本 → 字符过滤器 → 分词器 → 词元过滤器 → 词元流

1. 字符过滤器（Character Filters）

作用：清洗原始文本
常见用途 ：
- 去除HTML标签：<p>Hello</p> → Hello
- 字符映射：& → and
- 正则替换：删除特定字符

2. 分词器（Tokenizer）

核心组件：每个分析器必须有且仅有一个分词器
职责：将文本拆分为词元
示例："Hello World" → ["Hello", "World"]

3. 词元过滤器（Token Filters）

加工车间：对分词结果进行再加工
常见操作 ：
- 小写转换：Hello → hello
- 去除停用词：["the", "quick", "brown"] → ["quick", "brown"]
- 词干提取："jumping" → "jump"
- 同义词扩展："quick" → ["quick", "fast"]

三、Elasticsearch内置分词器详解

Elasticsearch提供了多种开箱即用的分词器，各有适用场景：

分词器	特点	适用场景
Standard	默认分词器，支持多语言，处理标点符号	通用文本
Simple	按非字母字符切分，全部小写	简单英文
Whitespace	按空白字符切分，保留大小写	代码、需要区分大小写的文本
Keyword	不切分，整个字段作为一个词元	标签、ID、不需要全文搜索的字段
Pattern	使用正则表达式切分	结构化日志、特定格式文本
Language	针对特定语言优化	多语言环境

实战测试：不同分词器对比

bash 复制代码

# 标准分词器
GET /_analyze
{
  "analyzer": "standard",
  "text": "Elasticsearch 7.14.0 is released!"
}
# 结果：["elasticsearch", "7.14.0", "is", "released"]

# 简单分词器
GET /_analyze
{
  "analyzer": "simple", 
  "text": "Elasticsearch 7.14.0 is released!"
}
# 结果：["elasticsearch", "is", "released"]

# 空白分词器
GET /_analyze
{
  "analyzer": "whitespace",
  "text": "Elasticsearch 7.14.0 is released!"
}
# 结果：["Elasticsearch", "7.14.0", "is", "released!"]

四、查询时分词的奥秘

理解查询时的分词行为是优化搜索体验的关键。Elasticsearch在这方面的设计非常灵活。

1. 测试分词效果：`_analyze` API

在部署分词策略前，务必使用_analyze API进行测试：

json 复制代码

GET /_analyze
{
  "tokenizer": "standard",
  "char_filter": [
    {
      "type": "mapping",
      "mappings": ["& => and"]
    }
  ],
  "filter": ["lowercase", "stop"],
  "text": "AT&T is a big company & it's powerful"
}

2. 查询类型与分词行为

Match Query：智能分词

json 复制代码

GET /products/_search
{
  "query": {
    "match": {
      "description": "wireless bluetooth headphones"
    }
  }
}

行为分析：

对搜索词"wireless bluetooth headphones"进行分词
得到词元：["wireless", "bluetooth", "headphones"]
在倒排索引中查找包含这些词元的文档
使用相关性算法（如BM25）计算得分并排序

Term Query：精确匹配

json 复制代码

GET /products/_search
{
  "query": {
    "term": {
      "tags": "wireless"
    }
  }
}

重要：term查询不进行分词！搜索词必须与索引中的词元完全一致。

Match Phrase Query：短语匹配

json 复制代码

GET /products/_search
{
  "query": {
    "match_phrase": {
      "description": "wireless headphones"
    }
  }
}

特点：不仅要求所有词元都出现，还要求它们以相同的顺序和位置出现。

3. 搜索时指定分词器

有时候，我们需要在查询时使用不同的分词策略：

json 复制代码

GET /articles/_search
{
  "query": {
    "match": {
      "content": {
        "query": "COVID-19 pandemic",
        "analyzer": "standard",  # 覆盖映射中的分词器设置
        "boost": 2.0  # 提高此字段的权重
      }
    }
  }
}

五、高级技巧：索引与查询分词分离

在某些场景下，我们需要在索引和查询时使用不同的分词策略：

json 复制代码

PUT /news_articles
{
  "settings": {
    "analysis": {
      "analyzer": {
        # 索引时：精细分词，便于检索
        "index_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "stop", "stemmer"]
        },
        # 查询时：宽松分词，提高召回率
        "search_analyzer": {
          "type": "custom", 
          "tokenizer": "standard",
          "filter": ["lowercase", "synonym", "stemmer"]
        }
      },
      "filter": {
        "synonym": {
          "type": "synonym",
          "synonyms": [
            "car, automobile, vehicle",
            "tv, television"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "index_analyzer",
        "search_analyzer": "search_analyzer"
      }
    }
  }
}

应用场景：

同义词扩展：索引时存储原始词，查询时扩展同义词
模糊搜索：索引时精确分词，查询时使用模糊匹配
多语言支持：针对不同语言使用不同的分析策略

六、中文分词实战

中文分词是Elasticsearch应用中的难点和重点，因为没有自然的分隔符。

1. IK分词器：最流行的选择

IK分词器提供两种分词模式：

json 复制代码

# 安装IK分词器后
PUT /chinese_docs
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_smart": {
          "type": "custom",
          "tokenizer": "ik_smart"
        },
        "ik_max": {
          "type": "custom",
          "tokenizer": "ik_max_word"
        }
      }
    }
  }
}

# 测试不同模式
POST /chinese_docs/_analyze
{
  "analyzer": "ik_smart",
  "text": "中华人民共和国国务院"
}
# 结果：["中华人民共和国", "国务院"]

POST /chinese_docs/_analyze  
{
  "analyzer": "ik_max",
  "text": "中华人民共和国国务院"
}
# 结果：["中华人民共和国", "中华人民", "中华", "华人", "人民共和国", "人民", "共和国", "共和", "国", "国务院", "国务", "院"]

模式选择指南：

ik_smart：粗粒度，适合搜索
ik_max_word：细粒度，适合索引

2. 自定义词典

在实际业务中，往往需要添加专业术语：

bash 复制代码

# IK词典目录结构
config/
├── IKAnalyzer.cfg.xml
├── extra_main.dic      # 主扩展词典
├── extra_single_word.dic  # 单字扩展词典
└── extra_stopword.dic     # 停用词词典

词典内容示例（extra_main.dic）：

复制代码

深度学习
神经网络
机器学习
人工智能

七、实战：构建自定义分词器

让我们创建一个处理电商产品描述的自定义分词器：

json 复制代码

PUT /ecommerce
{
  "settings": {
    "analysis": {
      "char_filter": {
        "symbols_filter": {
          "type": "mapping",
          "mappings": [
            "& => and",
            "® => ",
            "™ => "
          ]
        }
      },
      "filter": {
        "english_stop": {
          "type": "stop",
          "stopwords": "_english_"
        },
        "length_filter": {
          "type": "length",
          "min": 2,
          "max": 25
        },
        "custom_stemmer": {
          "type": "stemmer",
          "language": "english"
        }
      },
      "analyzer": {
        "product_analyzer": {
          "type": "custom",
          "char_filter": ["html_strip", "symbols_filter"],
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "english_stop", 
            "length_filter",
            "custom_stemmer"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "product_analyzer",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      }
    }
  }
}

# 测试自定义分词器
POST /ecommerce/_analyze
{
  "analyzer": "product_analyzer",
  "text": "Apple iPhone® 13 Pro Max - 256GB (Graphite)™"
}
# 结果：["apple", "iphone", "13", "pro", "max", "256gb", "graphite"]

八、调试与优化技巧

1. 深入理解分词过程

使用explain参数查看详细的分词过程：

json 复制代码

POST /_analyze
{
  "text": "Running quickly in the park",
  "analyzer": "english",
  "explain": true
}

2. 查看字段映射

json 复制代码

GET /my_index/_mapping/field/content

3. 性能监控

关注以下指标：

索引速度：复杂分词器会降低索引速度
索引大小：细粒度分词会增加存储需求
查询延迟：查询时分词操作会增加CPU使用

九、常见问题与解决方案

Q1：为什么搜索不到包含特定词的结果？

可能原因：

查询时使用了错误的分词器
索引和查询分词不一致
停用词过滤掉了搜索词

解决方案：

json 复制代码

# 检查索引时的分词
POST /my_index/_analyze
{
  "field": "content",
  "text": "你要搜索的词"
}

# 检查查询时的分词
POST /_analyze
{
  "analyzer": "standard",  # 使用查询时的分词器
  "text": "你要搜索的词"
}

Q2：如何处理中英文混合文本？

方案：使用自定义分词器组合

json 复制代码

{
  "settings": {
    "analysis": {
      "analyzer": {
        "mixed_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "cjk_width",
            "stop"
          ]
        }
      }
    }
  }
}

Elasticsearch分词

引言

一、分词：搜索引擎的"语言理解师"

什么是分词？

一个简单的例子

二、分词器的三层架构

1. 字符过滤器（Character Filters）

2. 分词器（Tokenizer）

3. 词元过滤器（Token Filters）

三、Elasticsearch内置分词器详解

实战测试：不同分词器对比

四、查询时分词的奥秘

1. 测试分词效果：_analyze API

2. 查询类型与分词行为

Match Query：智能分词

Term Query：精确匹配

Match Phrase Query：短语匹配

3. 搜索时指定分词器

五、高级技巧：索引与查询分词分离

六、中文分词实战

1. IK分词器：最流行的选择

2. 自定义词典

七、实战：构建自定义分词器

八、调试与优化技巧

1. 深入理解分词过程

2. 查看字段映射

3. 性能监控

九、常见问题与解决方案

Q1：为什么搜索不到包含特定词的结果？

Q2：如何处理中英文混合文本？

1. 测试分词效果：`_analyze` API