01. 多源数据清洗与预处理
- 目标:将非结构化文档转化为干净的标准化文本。
- 关键步骤 :
- OCR 识别
- 噪声剔除(广告/页眉页脚)
- 元数据 (Metadata) 提取
- 核心技术 :
- Unstructured
- Layout Analysis
- Markdown 转换
- 核心细节:提取标题、时间、分类作为元数据,为后续"条件过滤查询"打下基础。
02. 智能分片策略 (Chunking)
- 目标:解决长文本超过 Embedding 模型窗口限制及语义碎片化问题。
- 方法:不仅仅是固定长度切分。
- 核心技术 :
- Recursive Split
- 语义段落切分
- 滑窗重叠 (Overlap)
- 难点解决:采用 Small-to-Big 架构,存储细粒度子块用于检索,关联粗粒度父块用于生成上下文。
03. 高维向量化 (Embedding)
- 目标:将文本转化为计算机可理解的数学向量。选择合适的 Embedding 模型决定了语义空间的相关性。
- 核心技术 :
- 双塔模型
- BGE-M3 / m3e
- Batch Processing
- 性能优化:针对特定行业语料进行微调 (Fine-tuning),并使用批处理接口显著提升入库吞吐量。
04. 向量存储与索引构建
- 目标:将向量及对应的原始文本、元数据存入专用向量数据库,构建高效查询索引。
- 核心技术 :
- HNSW 索引
- IVF_PQ
- 向量数据库
- 工程挑战:大规模数据下选择 HNSW 索引权衡检索速度与精度,并实现多租户数据隔离。
05. 检索增强与验证 (Optimization)
- 目标:入库后的最后一步是闭环验证。通过混合检索和重排序提升最终召回质量。
- 核心技术 :
- Hybrid Search
- Rerank 重排序
- HyDE 虚拟文档
- 效果突围:引入 Reranker 模型对 Top-50 结果进行精排,彻底解决"语义相近但事实错误"的痛点。
专家级核心总结
精细化预处理
- 垃圾入,垃圾出。数据质量是 RAG 系统的天花板。
上下文保持
- 利用父子块和重叠机制,守住知识的语义完整性。
工程化闭环
- 通过混合检索与重排序,实现工业级的召回精度。
掌握这套链路,你就掌握了生产级 RAG 应用的底层密码。