大模型分块技术

分块

大模型分块之后,需要emdedding成高维度向量存储,用于后期的向量搜索。

分的太大有什么问题:

分词之后,块太大导致向量维度会丢失,损失精度

分的太小有什么问题:

太小导致块太多,干扰搜索

分块方式

简单指定长度

CharacterTextSplitter

设置固定大小,设置重叠度

递归分块

RecursiveCharacterTextSplitter

设置分隔符,设置分隔符的优先级

设置重叠度

语义分块

SemanticSplitterNodeParser

缓冲区大小:buffer_size

设置断点百分位:breakpoint_percentile_threshold

结构化分块

Unstructured基于文档结构分块

Basic策略

ByTitle策略

优化技巧

带滑动窗口的句子切分

选择核心句子,设置窗口大小,获取全面上下文,切块时需要设计

分块时混合生成父子文本块

切分阶段进行父子文档切分,为检索而做

存储阶段子文档进行向量数据库存储,便于解锁

父文档进行关系型数据库存储,便于追踪详细数据

分块时为文本块创建元数据

分块阶段针对文本进行元数据生成,比如年份,作者,文件名,类型,页码等

在分块时形成有级别的索引

可以将多个文档分别生成摘要,形成了不同的层次,检索的时候可以分层次进行检测,先检测年份,再到作者再到细节等

相关推荐
大数据AI人工智能培训专家培训讲师叶梓1 小时前
120B 数学语料 + GRPO 算法,DeepSeekMath 刷新开源大模型推理天花板
人工智能·算法·大模型·推理·deepseek·openclaw·openclaw 讲师
JuckenBoy2 小时前
Linux环境安装SGLang框架运行自选大模型(以Rocky9.7为例)
linux·运维·大模型·qwen·rocky·deepseek·sglang
CoderJia程序员甲3 小时前
GitHub 热榜项目 - 日榜(2026-03-20)
人工智能·ai·大模型·github·ai教程
华农DrLai5 小时前
什么是Prompt注入攻击?为什么恶意输入能操控AI行为?
人工智能·深度学习·大模型·nlp·prompt
威化饼的一隅6 小时前
【大模型LLM学习】天池Deep Research Agent开发赛
大模型·agent·智能体·deep research·深度研究智能体·deep search
kishu_iOS&AI6 小时前
PyCharm 结合 uv 进行 AI 大模型开发
人工智能·pycharm·大模型·uv
带娃的IT创业者8 小时前
国内主流大模型API调用入门与对比:DeepSeek/智谱GLM/Kimi/千问完整指南
python·大模型·api调用·kimi·千问·deepseek·智谱glm
无极低码17 小时前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
华农DrLai1 天前
什么是Prompt工程?为什么提示词的质量决定AI输出的好坏?
数据库·人工智能·gpt·大模型·nlp·prompt
cuguanren1 天前
MuleRun vs OpenClaw vs 网页服务:云端安全与本地自由的取舍之道
安全·大模型·llm·agent·智能体·openclaw·mulerun