大模型分块技术

分块

大模型分块之后,需要emdedding成高维度向量存储,用于后期的向量搜索。

分的太大有什么问题:

分词之后,块太大导致向量维度会丢失,损失精度

分的太小有什么问题:

太小导致块太多,干扰搜索

分块方式

简单指定长度

CharacterTextSplitter

设置固定大小,设置重叠度

递归分块

RecursiveCharacterTextSplitter

设置分隔符,设置分隔符的优先级

设置重叠度

语义分块

SemanticSplitterNodeParser

缓冲区大小:buffer_size

设置断点百分位:breakpoint_percentile_threshold

结构化分块

Unstructured基于文档结构分块

Basic策略

ByTitle策略

优化技巧

带滑动窗口的句子切分

选择核心句子,设置窗口大小,获取全面上下文,切块时需要设计

分块时混合生成父子文本块

切分阶段进行父子文档切分,为检索而做

存储阶段子文档进行向量数据库存储,便于解锁

父文档进行关系型数据库存储,便于追踪详细数据

分块时为文本块创建元数据

分块阶段针对文本进行元数据生成,比如年份,作者,文件名,类型,页码等

在分块时形成有级别的索引

可以将多个文档分别生成摘要,形成了不同的层次,检索的时候可以分层次进行检测,先检测年份,再到作者再到细节等

相关推荐
MonkeyKing_sunyuhua2 小时前
大模型常见的专用名词
大模型
大模型真好玩2 小时前
大模型训练全流程实战指南(一)——为什么要学习大模型训练?
人工智能·pytorch·python·大模型·deep learning
悟乙己3 小时前
使用TimeGPT进行时间序列预测案例解析
机器学习·大模型·llm·时间序列·预测
数据饕餮3 小时前
提示词工程实训营09- 4.2 风格模仿与调整——从“千篇一律“到“风格百变“的AI魔法
大模型·提示词工程
桃子叔叔3 小时前
基于SWIFT框架的预训练微调和推理实战指南之完整实战项目
大模型·swift
数据饕餮4 小时前
提示词工程实训营08- 写作助手:文章、报告、创意文案——从“写作困难户“到“高产作家的蜕变秘籍
人工智能·大模型·提示词工程
CoderJia程序员甲4 小时前
GitHub 热榜项目 - 日榜(2026-1-7)
人工智能·ai·大模型·github·ai教程
石去皿6 小时前
从本地知识库到“活”知识——RAG 落地全景指南
c++·python·大模型·rag
小白考证进阶中6 小时前
阿里云ACA认证常见问题答疑
阿里云·大模型·云计算·阿里云aca证书·阿里云aca·aca认证·入门证书
杀生丸学AI8 小时前
【平面重建】3D高斯平面:混合2D/3D光场重建(NeurIPS2025)
人工智能·平面·3d·大模型·aigc·高斯泼溅·空间智能