大模型分块技术

分块

大模型分块之后,需要emdedding成高维度向量存储,用于后期的向量搜索。

分的太大有什么问题:

分词之后,块太大导致向量维度会丢失,损失精度

分的太小有什么问题:

太小导致块太多,干扰搜索

分块方式

简单指定长度

CharacterTextSplitter

设置固定大小,设置重叠度

递归分块

RecursiveCharacterTextSplitter

设置分隔符,设置分隔符的优先级

设置重叠度

语义分块

SemanticSplitterNodeParser

缓冲区大小:buffer_size

设置断点百分位:breakpoint_percentile_threshold

结构化分块

Unstructured基于文档结构分块

Basic策略

ByTitle策略

优化技巧

带滑动窗口的句子切分

选择核心句子,设置窗口大小,获取全面上下文,切块时需要设计

分块时混合生成父子文本块

切分阶段进行父子文档切分,为检索而做

存储阶段子文档进行向量数据库存储,便于解锁

父文档进行关系型数据库存储,便于追踪详细数据

分块时为文本块创建元数据

分块阶段针对文本进行元数据生成,比如年份,作者,文件名,类型,页码等

在分块时形成有级别的索引

可以将多个文档分别生成摘要,形成了不同的层次,检索的时候可以分层次进行检测,先检测年份,再到作者再到细节等

相关推荐
这是谁的博客?13 小时前
[模型解析] DeepSeek: 技术创新与架构解析
ai·架构·大模型·moe·开源模型·deepseek·国产ai
这是谁的博客?13 小时前
[模型解析] Gemini: 多模态技术架构深度解析
ai·google·架构·大模型·多模态·视频生成·gemini
程序猿编码14 小时前
大模型的“文字障眼法“:FlipAttack 文本反转越狱技术全解析
linux·python·ai·大模型
DogDaoDao1 天前
【AI Agent 深度解析】OpenHuman 开源项目全面分析 — 打造你的个人 AI 超级智能助手
人工智能·深度学习·开源·大模型·ai agent·智能体·openhuman
龙骑士baby1 天前
重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape
深度学习·ai·大模型·llm·ai生态
牧子川1 天前
016-Structured-Output-Practical
大模型·格式化输出
龙侠九重天1 天前
Embedding 模型深度使用——语义搜索与聚类
人工智能·深度学习·数据挖掘·大模型·llm·embedding·聚类
AndrewHZ2 天前
【大模型通关指南】3. 全球主流大模型全栈对比(含Google I/O最新Gemini,2026.05.20)
人工智能·深度学习·大模型·openai·claude·gemini·deepseek
魔乐社区2 天前
基于昇腾 MindSpeed LLM 玩转 DeepSeek-V4-Flash
人工智能·开源·大模型
Terrence Shen2 天前
Agent面试八股文(系列之三)
人工智能·大模型·agent·rag·智能体·大模型技术