破局AI问答专有名词检索迷局:分词期神器强势登场!

有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把"小米手机"分成了"小米"和"手机"两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。

1、定义自定义字典

复制代码
cat /opt/my_dic.txt
 
小米手机 1000 n
苹果手机 1000 n

字典组成:{词语}空格{词频}空格{词性}

复制代码
示例:

小米手机 1000 n
小米手机:自定义词语
1000      :词频,越大优先级越高
n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)

2、将自定义字典文件拷贝到容器中

复制代码
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/

3、split_model.py 引入自定义字典

复制代码
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')

4、测试验证

分段情况:

检索结果

相关推荐
念风零壹11 小时前
AI 时代的前端技术:从系统编程到 JavaScript/TypeScript
前端·ai
懒虫虫~12 小时前
利用自定义Agent-Skill实现项目JDK17升级
ai·skill
AI架构全栈开发实战笔记12 小时前
Eureka 在大数据环境中的性能优化技巧
大数据·ai·eureka·性能优化
大厂资深架构师12 小时前
Spring Cloud Eureka在后端系统中的服务剔除策略
spring·spring cloud·ai·eureka
AI架构全栈开发实战笔记12 小时前
Eureka 对大数据领域服务依赖关系的梳理
大数据·ai·云原生·eureka
阿杰学AI13 小时前
AI核心知识91——大语言模型之 Transformer 架构(简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·自然语言处理·aigc·transformer
shengnan_wsn16 小时前
【一】【ai基础】【大模型和智能体初识】
ai
nimadan1216 小时前
**AI仿真人剧制作工具2025推荐,解锁沉浸式内容创作新范
ai
阿沐的硅基世界18 小时前
OpenClaw记忆层详解
ai
___波子 Pro Max.19 小时前
AI与AGI的区别及未来展望
ai·agi