破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
suyong_yq11 小时前
使用Vela编译器开发Ethos-U NPU流程导引
ai·嵌入式·arm·npu·ethos-u
jasonj3313 小时前
大模型与Dify实战:汽车研发工程师的AI工具
ai
CoderJia程序员甲14 小时前
GitHub 热榜项目 - 日榜(2025-10-15)
ai·开源·大模型·github·ai教程
AlfredZhao15 小时前
比 "26ai" 更震撼的,是 Oracle AI 向量搜索改写的生命答案
ai·vector·search·26ai
come112341 天前
Chrome MCP Server 的安装与使用
ai
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-10-11)
ai·开源·github·ai编程·github热榜
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-10-14)
ai·开源·大模型·github·ai教程
kailp1 天前
未来栖居的科技蓝图:「摩登豪宅」特展揭示2025智能家居“隐智”新范式
科技·ai·智能家居·云渲染·渲染图
MJJ_1 天前
Deep Dive into LLMs like ChatGPT 学习笔记
大语言模型
渣渣苏1 天前
LangChain4J实战,高效速通
ai·langchain4j