破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
lvcoc8 小时前
unity 接入火山引擎API,包括即梦AI
windows·unity·ai·火山引擎
CoderJia程序员甲8 小时前
GitHub 热榜项目 - 日榜(2025-09-06)
ai·开源·github·ai编程·github热榜
benben0449 小时前
ReAct模式解读
java·ai
API流转日记10 小时前
对接gemini-2.5-flash-image-preview教程
人工智能·gpt·ai·chatgpt·ai作画
CoderJia程序员甲12 小时前
GitHub 热榜项目 - 日榜(2025-09-03)
ai·开源·github·开源项目·github热榜
即兴小索奇12 小时前
Hoppscotch:开源轻量API测试工具,秒启动高效解决临时接口测试需求
ai·商业·ai商业洞察·即兴小索奇
即兴小索奇14 小时前
AI API Tester体验:API测试工具如何高效生成接口测试用例、覆盖异常场景?
ai·商业·ai商业洞察·即兴小索奇
Tiger Z15 小时前
《动手学深度学习v2》学习笔记 | 2.4 微积分 & 2.5 自动微分
pytorch·深度学习·ai
Learn Beyond Limits17 小时前
Error metrics for skewed datasets|倾斜数据集的误差指标
大数据·人工智能·python·深度学习·机器学习·ai·吴恩达
DreamLife☼17 小时前
工业领域 ACP 协议全解析:从入门到实战案例
网络·安全·ai·工业·行为·acp·管控