大模型分块技术

分块

大模型分块之后,需要emdedding成高维度向量存储,用于后期的向量搜索。

分的太大有什么问题:

分词之后,块太大导致向量维度会丢失,损失精度

分的太小有什么问题:

太小导致块太多,干扰搜索

分块方式

简单指定长度

CharacterTextSplitter

设置固定大小,设置重叠度

递归分块

RecursiveCharacterTextSplitter

设置分隔符,设置分隔符的优先级

设置重叠度

语义分块

SemanticSplitterNodeParser

缓冲区大小:buffer_size

设置断点百分位:breakpoint_percentile_threshold

结构化分块

Unstructured基于文档结构分块

Basic策略

ByTitle策略

优化技巧

带滑动窗口的句子切分

选择核心句子,设置窗口大小,获取全面上下文,切块时需要设计

分块时混合生成父子文本块

切分阶段进行父子文档切分,为检索而做

存储阶段子文档进行向量数据库存储,便于解锁

父文档进行关系型数据库存储,便于追踪详细数据

分块时为文本块创建元数据

分块阶段针对文本进行元数据生成,比如年份,作者,文件名,类型,页码等

在分块时形成有级别的索引

可以将多个文档分别生成摘要,形成了不同的层次,检索的时候可以分层次进行检测,先检测年份,再到作者再到细节等

相关推荐
CoderJia程序员甲13 小时前
GitHub 热榜项目 - 日榜(2026-04-09)
人工智能·ai·大模型·github·ai教程
前端摸鱼匠15 小时前
【AI大模型春招面试题18】 L1、L2正则化、Dropout、早停(Early Stopping)的原理与适用场景?
人工智能·ai·语言模型·面试·大模型
前端摸鱼匠16 小时前
【AI大模型春招面试题17】 过拟合、欠拟合在大模型中的表现与解决策略?
人工智能·ai·语言模型·面试·大模型
魔乐社区16 小时前
从0到1:魔乐社区贡献者丁一超的大模型量化实战指南
人工智能·大模型·量化
CoderJia程序员甲16 小时前
GitHub 热榜项目 - 日榜(2026-04-10)
人工智能·ai·大模型·github·ai教程
AI、少年郎17 小时前
如何用个人电脑快速训练自己的语言模型?MiniMind 全流程实战指南
人工智能·python·神经网络·ai·自然语言处理·大模型·模型训练微调
iiiiii1117 小时前
【论文阅读笔记】ReVal:让大模型强化学习真正支持离策略(off-policy)数据复用
论文阅读·笔记·语言模型·大模型·llm
千桐科技17 小时前
从“找答案”到“解决问题”:qKnow 如何用“预置+迭代”体系打通 AI 落地最后一公里?
大模型·知识图谱·知识库·智能体·智能应用·qknow
guslegend1 天前
第5节:动态切片策略与重叠机制提升RAG召回率
人工智能·大模型·rag
熊猫钓鱼>_>1 天前
从“流程固化“到“意图驱动“:大模型调智能体调Skill架构深度解析
ai·架构·大模型·llm·agent·skill·openclaw