技术栈

大模型应用基础

Lw中
2 小时前
pdf·rag·大模型应用基础·多源文档处理
从PDF到RAG知识库在构建RAG(检索增强生成)系统的过程中,文档预处理是决定检索质量的基础环节。然而,面对多源异构文档(如PDF、图片、扫描件),手动处理不仅效率低下,还难以保证一致性和可维护性。为此,我们需要构建一条自动化预处理流水线,将OCR识别、文本清洗、分段、元数据绑定、知识库上传等步骤串联起来,并具备可配置和可扩展的能力,从而适应不同业务场景和未来需求的变化。
Lw中
3 小时前
python·rag文本分割·大模型应用基础
RAG切片语义割裂怎么办?在构建RAG(检索增强生成)系统的过程中,文档切片是连接原始数据与大模型的关键一环。切片的质量直接影响检索的准确性和生成内容的连贯性。然而,实际应用中我们常常遇到这样的困境:一个完整的语义单元被粗暴地切碎,导致模型只检索到片段而丢失上下文;或者切片过于庞大,混入大量噪声,降低召回精度。这就是切片语义割裂问题。
我是有底线的