07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器

[Solr 全文检索之为索引库添加中文分词器](#Solr 全文检索之为索引库添加中文分词器)
- 添加中文分词器
- - [1、添加中文分词器的 jar 包](#1、添加中文分词器的 jar 包)
  - [2、修改 managed-schema 配置文件](#2、修改 managed-schema 配置文件)
  - - [什么是 fieldType](#什么是 fieldType)
  - [3、添加停用词文档](#3、添加停用词文档)
  - [4、重启 solr](#4、重启 solr)
  - 5、添加【*_cn】动态字段，并为该字段设置中文分词器
  - 6、演示分词器的区别
  - - [演示 text_cjk 这个简单的分词器](#演示 text_cjk 这个简单的分词器)
    - [演示 text_cn 这个中文分词器](#演示 text_cn 这个中文分词器)

Solr 全文检索之为索引库添加中文分词器

添加中文分词器

1、添加中文分词器的 jar 包

将 Solr 的 contrib\analysis-extras\lucene-libs 文件夹
目录下的 lucene-analyzers-smartcn-x.x.x.jar 包
复制到 Solr的 server\solr-webapp\webapp\WEB-INF\lib 目录下。

如果要添加第三方中文分词器，只要同样将JAR包复制到WEB-INF\lib目录下。

2、修改 managed-schema 配置文件

设置使用中文分词器的Field类型（修改这个 managed-schema 文件）：

在配置文件里面添加这个中文分词器：

text_cn (中文分词器) 其实只是一个字段类型而已，因为实现了 HMMChineseTokenizerFactory 这个中文分词器的功能，所以也可以说 text_cn 是一个中文分词器。

java 复制代码

  <!-- 设置中文分词器 -->
  <fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
	  <!-- HMMChineseTokenizerFactory 是一个中文分词器   -->
      <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
	  <!-- 过滤英文大小写，就是保存关键字的时候不区分大小写，统统把关键字都弄成小写再保存 -->
      <filter class="solr.LowerCaseFilterFactory"/>
      <!-- 添加停用词文档，用于过滤停用词 -->
      <!-- 停用词列表在 words 属性中指定，并且忽略大小写（ignoreCase="true"） -->
      <filter class="solr.StopFilterFactory" words="lang/stopwords_cn.txt" ignoreCase="true"/>
	  <!-- 这个是词干化，用于对英语文本进行词干提取。它基于 Porter 算法，可以将英语单词转换为其基本形式（词干 -->
      <filter class="solr.PorterStemFilterFactory"/>
    </analyzer>
  </fieldType>

如图：图形管理界面的这些字段类型，就对应着 managed-schema 配置文件里面的 fieldType

不同的一些字段类型，在 managed-schema 配置文件里面，就实现了针对不同语言的分词器功能。

比如上面的 text_cn 的解释。