破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
栗子不爱栗子2 小时前
从理解AI到驾驭文字:一位技术爱好者的写作工具探索手记
python·学习·ai
SuperHeroWu74 小时前
【AI大模型入门指南】概念与专有名词详解 (一)
人工智能·ai·大模型·入门·概念
chanalbert11 小时前
AI Agent核心技术深度解析:Function Calling与ReAct对比报告
人工智能·ai·语言模型
不叫猫先生11 小时前
Bright Data网页抓取工具实战:BOSS直聘爬虫 + PandasAI分析洞察前端岗位市场趋势
爬虫·python·ai·代理
仙人掌_lz14 小时前
四大LLM 微调开源工具包深度解析
人工智能·python·ai·开源·llm
咧咧小侠14 小时前
使用 Python 构建并调用 ComfyUI 图像生成 API:完整实战指南
开发语言·python·ai·aigc
滴答滴答嗒嗒滴15 小时前
TensorZero:开源 LLM 应用优化与可观测性平台
人工智能·ai·开源·llm·大语言模型·tensorzero
ExperDot15 小时前
我整理了 10 条 AI 聊天应用的需求
ai·产品设计·产品需求
AI360labs_atyun1 天前
2025 高考:AI 都在哪些地方发挥了作用
人工智能·科技·ai·高考
AlfredZhao1 天前
曾经风光无限的 Oracle DBA 已经落伍了吗?
ai·vector·embedding·onnx·hnsw·ivf