embedding微调

RAG 检索查不准的工程归因：从向量对齐到分层召回的架构取舍在 2026 年初上线的某金融合规问答系统中，RAG 模块持续出现“用户问 A，系统答 B”的现象。典型场景如用户查询“2025 年反洗钱新规对跨境转账的影响”，系统却返回了“2023 年境内支付结算管理办法”相关内容。初期排查聚焦于 prompt 优化和相似度阈值调整，但效果有限。进一步观察发现，问题并非集中在单一环节，而是贯穿了从文档入库到最终回答生成的全链路。

基于llama-index对embedding模型进行微调QA对话目前是大语言模型的一大应用场景，在QA对话中，由于大语言模型信息的滞后性以及不包含业务知识的特点，我们经常需要外挂知识库来协助大模型解决一些问题。在外挂知识库的过程中，embedding模型的召回效果直接影响到大模型的回答效果，因此，在许多场景下，我们都需要微调我们的embedding模型来提高我们的召回效果。下面，我们就基于llama-index对BAAI/bge-base-zh-v1.5模型进行微调，关于该模型的介绍，可以参考https://huggingface.co/BAAI/bge-ba

我是有底线的