破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
哪 吒4 小时前
OpenAI放大招:ChatGPT学习模式上线,免费AI智能家教
人工智能·学习·ai·chatgpt·gemini·deepseek
Blessed_Li6 小时前
【dify+milvus避坑指南】将向量库milvus集成给dify作为知识库
docker·ai·llm·milvus·dify
叶常落8 小时前
AI coding汇总持续更新
ai
博睿谷IT99_11 小时前
2025年华为HCIA-AI认证是否值得考?还是直接冲击HCIP?
人工智能·华为·ai·华为认证·职业规划
棱镜研途12 小时前
科研快报 |无人机+AI:广东防控基孔热背后的技术革命
图像处理·人工智能·计算机视觉·ai·视觉检测·无人机·基孔肯雅热
小眼睛FPGA12 小时前
【盘古100Pro+开发板实验例程】FPGA学习 | 基于紫光 FPGA 的键控 LED 流水灯
科技·学习·ai·fpga开发·fpga
自由鬼16 小时前
AI赋能操作系统:通往智能运维的未来
linux·运维·服务器·人工智能·程序人生·ai·操作系统
麦兜*17 小时前
【算法】十大排序算法超深度解析,从数学原理到汇编级优化,涵盖 15个核心维度
java·汇编·jvm·算法·spring cloud·ai·排序算法
originalHSL19 小时前
智能体通信协议
ai
Altair澳汰尔19 小时前
行业热点丨仿真历史数据难以使用?如何利用几何深度学习破局,加速汽车工程创新
人工智能·ai·汽车·数据治理·仿真·cae·physicsai