破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
aopstudio1 小时前
如何优雅地下载 Hugging Face 模型
自然语言处理·大语言模型·huggingface
外贸日常的小渔1 小时前
GEO优化服务商深度评测:实战选择指南
ai
一头小火烧2 小时前
基于大模型的发票识别系统
ai·langchain
ValidationExpression2 小时前
LangChain1.0学习
学习·ai·langchain·fastapi
deephub3 小时前
CALM模型的黑盒采样:用碰撞方法实现温度调节
人工智能·大语言模型·采样
柳安忆3 小时前
Agent实战!从创意到突破:构建一个多智能体协作的研究创意生成系统
人工智能·ai
no24544103 小时前
RAGFlow 全面接入 MinerU 2.0,支持 pipeline、vlm-transformers、vlm-sglang 三种模式,解析精度大幅度up
java·大数据·人工智能·python·ai·sglang
m0_603888713 小时前
EmbeddingRWKV State-Centric Retrieval with Reusable States
ai·论文速览
之歆3 小时前
Spring ai 指标监控
java·人工智能·spring·ai
yuluo_YX4 小时前
Prompt 工程--“骗出” System Prompt
ai·prompt·agent