文本分割(Chunking)策略+向量化与嵌入 数据库构造A
直接上传pdf,Dify直接处理
分段标识符:\n\n,\n,. , (符合英文论文规范)
分段最大长度:1024 characters 分段重叠长度 :50 characters (使用Dify默认推荐值)
文本预处理规则: 替换掉连续的空格、换行符和制表符

索引方式:嵌入模型(qwen3-embedding:4b)

向量检索:通过生成查询嵌入并查询与其向量表示最相似的文本分段
TOP K:3 Score阈值:0.5 (使用默认值)