破局AI问答专有名词检索迷局：分词期神器强势登场！

小白跃升坊2025-06-11 11:29

有客户深度使用全文检索模式检索分段，反馈一些专有名词无法被检索到（例如把"小米手机"分成了"小米"和"手机"两个词，对检索结果造成较大干扰），而 MaxKB 的分词器采用流行的 jieba 库，确认了一个临时解决方案。

1、定义自定义字典

复制代码

cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成：{词语}空格{词频}空格{词性}

复制代码

示例：

小米手机 1000 n
小米手机：自定义词语
1000      ：词频，越大优先级越高
n            ：词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

复制代码

docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

复制代码

jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

分段情况：

检索结果