大模型分块技术

分块

大模型分块之后,需要emdedding成高维度向量存储,用于后期的向量搜索。

分的太大有什么问题:

分词之后,块太大导致向量维度会丢失,损失精度

分的太小有什么问题:

太小导致块太多,干扰搜索

分块方式

简单指定长度

CharacterTextSplitter

设置固定大小,设置重叠度

递归分块

RecursiveCharacterTextSplitter

设置分隔符,设置分隔符的优先级

设置重叠度

语义分块

SemanticSplitterNodeParser

缓冲区大小:buffer_size

设置断点百分位:breakpoint_percentile_threshold

结构化分块

Unstructured基于文档结构分块

Basic策略

ByTitle策略

优化技巧

带滑动窗口的句子切分

选择核心句子,设置窗口大小,获取全面上下文,切块时需要设计

分块时混合生成父子文本块

切分阶段进行父子文档切分,为检索而做

存储阶段子文档进行向量数据库存储,便于解锁

父文档进行关系型数据库存储,便于追踪详细数据

分块时为文本块创建元数据

分块阶段针对文本进行元数据生成,比如年份,作者,文件名,类型,页码等

在分块时形成有级别的索引

可以将多个文档分别生成摘要,形成了不同的层次,检索的时候可以分层次进行检测,先检测年份,再到作者再到细节等

相关推荐
AndrewHZ7 分钟前
【AI黑话日日新】什么是AI智能体?
人工智能·算法·语言模型·大模型·llm·ai智能体
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-01-31)
ai·开源·大模型·github·ai教程
大模型RAG和Agent技术实践4 小时前
突破RAG边界:构建能“读懂“PPT逻辑与图文的智能问答系统实战(附完整源代码)
大模型·powerpoint·智能问答·rag
AndrewHZ5 小时前
【AI黑话日日新】什么是skills?
语言模型·大模型·llm·claude code·skills
国家一级假勤奋大学生15 小时前
InternVL系列 technical report 解析
大模型·llm·vlm·mllm·internvl·调研笔记
杀生丸学AI16 小时前
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
人工智能·大模型·aigc·三维重建·世界模型·逆渲染
人工智能培训17 小时前
大模型训练数据版权与知识产权问题的解决路径
人工智能·大模型·数字化转型·大模型算法·大模型应用工程师
找了一圈尾巴17 小时前
Agent Skills 与其它技术方案的对比
大模型·大模型应用开发
阿里巴啦1 天前
clawdbot (openclaw) + discord 机器人部署指南学习教程
机器人·大模型·discord·clawdbot·openclaw·clawbot安装教程
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2026-01-30)
开源·大模型·llm·github·ai教程