文章目录
简介
dify知识库检索
默认知识库配置
当使用dify的时候,发现可以通过文件等方式直接导入知识库,但是发现一个离奇的事情,就是导入的文档,直接搜素无法找到答案,查看文档后,发现文档被定义了一些关键字。
经过测试发现,只有按照关键字查找,才有办法找到知识库内容。
原来dify默认是采用经济类型,就是关键词检索(BM25)为主,0 token消耗,有点类似MySQL的精准命中。
比如李白的故人西辞黄鹤楼,烟花三月下扬州。孤帆远影碧空尽,唯见长江天际流。
导入后发现关键字是"西辞","黄鹤楼"等等,而李白并不是关键词。
另外更加无法通过语义的方式实现知识检索。
手动配置
最优是采用向量模型加rerank的方式,
然后设置top=5,score=0.3,第一个决定是否找到,第二个决定相似度
向量化加重排序
这个时候搜索"李白的诗",就能通过语义实现文档的搜索。