破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
测试蔡坨坨1 小时前
OpenClaw 快速上手教程:用手机远程指挥电脑,打造你的 24 小时 AI 管家!
ai
方方不听话3 小时前
🦞 重磅!腾讯 QQ 官方接入 OpenClaw“小龙虾”:一键创建机器人,1分钟极速部署!
ai·openclaw·小龙虾
凉年技术1 天前
Claude Code 完整上手指南
ai
曲幽2 天前
FastAPI流式输出实战与避坑指南:让AI像人一样“边想边说”
python·ai·fastapi·web·stream·chat·async·generator·ollama
后端AI实验室2 天前
用AI写代码,我差点把漏洞发上线:血泪总结的10个教训
java·ai
程序员鱼皮2 天前
67个AI编程必会知识,1.6w字一次讲透!女友:“你要考研啊?!”
ai·程序员·编程·ai编程·vibe coding
后端AI实验室3 天前
我用Cursor开发了3个月,整理出这套提效4倍的工作流
java·ai
牧马人win3 天前
Microsoft Agent Framework 详解与实践
ai