2W8000字 LLM架构文章阅读指北

❝

大模型架构专栏已经更新了30多篇文章。完整的专栏内容欢迎订阅： LLM 架构专栏

以下是重新整理的部分文章的阅读指北(微信文章可直接跳转):
1、LLM大模型架构专栏|| 从NLP基础谈起

本文是自然语言处理（NLP）相关的技术科普文章，从定义、应用、术语和工作流程等方面，对NLP进行了全面的解析。

NLP定义：致力于让机器理解、处理和生成人类语言，涵盖自然语言理解（NLU）和自然语言生成（NLG）两个领域，与语音识别不同但常协同工作。
应用领域：包括情感分析、毒性分类、机器翻译、命名实体识别等，广泛应用于生活各个方面，如企业了解用户满意度、网络内容审核、语言交流、信息筛选等。
重要术语：文档是基本文本单位；语料库是大量文档集合，用于训练和评估模型；特征是文本中用于机器学习模型的可测量属性。
工作流程
- 数据预处理：包括分词、词干提取、词形还原、文本归一化和词性标注等技术，目的是提高模型性能并将文本转换为模型能理解的格式。
- 特征提取：常见方法有词袋模型、TF - IDF、N - grams、词嵌入和上下文词嵌入等，用于将文本转化为数字特征，帮助机器学习模型进行处理。

2、 LLM大模型架构专栏|| 自然语言处理（NLP）之建模 13. 2w字解析量化技术，全网最全的大模型量化技术解析

本文围绕自然语言处理（NLP）建模技术展开，详细介绍了NER、语言模型、传统机器学习与深度学习技术、学习策略等内容，展示了 NLP 建模技术的应用和发展趋势。

命名实体识别（NER）：从文本中找出并分类命名实体，如人名、组织名等。利用spacy库可识别英文句子中的实体。在新闻资讯、知识图谱构建等领域应用广泛。
语言模型：预测单词序列中接下来可能出现的单词的统计模型。传统语言模型如一元、二元或三元模型，依据单词概率或前序单词预测；神经网络语言模型利用RNNs或Transformer架构，以BERT为代表，能捕捉复杂模式和依赖关系。
传统机器学习与深度学习在NLP中的技术碰撞
- 传统机器学习技术：逻辑回归用于情感分析等；朴素贝叶斯基于独立性假设分类；决策树通过分割数据集分类；LDA用于主题建模；HMM用于词性标注。
- 深度学习技术：自注意力机制等技术应用广泛，Transformer凭借自注意力机制，提升训练速度和推理效率，催生了诸多强大模型。
现代NLP中的重要学习策略：迁移学习利用预训练模型减少训练成本；微调针对特定任务调整预训练模型；零样本学习使模型执行未训练任务；少样本学习让模型从少量示例学习，减少对大量标注数据的依赖。

3、 LLM大模型架构之词嵌入（Part1）
3、 LLM大模型架构之词嵌入（Part2）
3、 LLM大模型架构之词嵌入（Part3）

以上三部分介绍了词嵌入的各种方法

4、 LLM架构从基础到精通之 Word2Vec 训练全解析

本文围绕自然语言处理技术Word2Vec展开，详细介绍了其训练过程、架构、应用及优化方法，帮助读者深入理解这一技术。

Word2Vec基本概念：是自然语言处理中关键技术，能将单词转化为向量，便于计算机理解文本。
训练过程与架构：本质是单隐藏层神经网络，训练时调整权重降低损失函数值，训练后取隐藏层权重作为词向量。输入单词需转换为one - hot向量，隐藏层是全连接层，其权重即词向量，输出层用softmax激活函数输出目标单词概率分布。
语义和句法关系处理：相似上下文的单词会生成相似词向量，通过向量算术可重现语义和句法模式，如"Man - Woman = Brother - Sister"。
训练算法
- 分层softmax：用哈夫曼树近似条件对数似然，减少计算量，对不常见单词效果好，但训练轮数增加时作用减弱。
- 负采样：仅对目标单词和N个负实例采样，忽略one - hot标签中的大部分'0'，负样本按一元分布选择，频率越高越可能被选。
实用方法
- 模型架构选择：Skip - gram在大型语料库和高维向量模型中准确性高，CBOW计算成本低且准确性相近。
- 子采样：对高频单词进行子采样，可提高训练速度和性能，常见单词对或短语可视为单个"单词"。
- 维度设置：词向量质量随维度增加提升，但超过一定阈值边际收益减少，一般维度设为100 - 1000。
- 上下文窗口调整：Skip - gram推荐窗口大小为10，CBOW为5。

5、 LLM架构从基础到精通之循环神经网络（RNN）

这篇文章围绕循环神经网络（RNN）展开，从神经网络基础讲起，深入探讨RNN及其相关内容，主要涵盖以下要点：

神经网络基础：神经网络受大脑运作模式启发，由众多节点构成，在机器学习尤其是深度学习中作用关键。其学习过程包括前向传播、损失函数计算和反向传播，涉及Epochs、Batch Size和Iterations等重要概念。神经网络类型多样，如浅层、深层神经网络等。
循环神经网络（RNNs）
- 定义与应用场景：RNN专门用于处理顺序数据，能通过内部状态保留之前输入的信息，在处理时间序列数据、语言建模等任务时优势明显。
- 顺序数据概念：顺序数据的顺序影响其含义，如文本句子、时间序列数据和语音信号等。
- 与前馈神经网络对比：前馈神经网络数据单向流动，处理顺序数据有局限；RNN通过反馈回路传递信号，能更好处理顺序数据。
- 架构：由输入层、隐藏层和输出层组成，可看作多个前馈神经网络在时间上的链式执行。关键操作包括前向传播、反向传播时间（BPTT）和权重更新。
- 训练挑战：存在梯度消失和梯度爆炸问题，主要由激活函数特性和初始权重设置不当引起，可通过观察梯度大小判断是否出现问题。
- 解决方法：可采用适当的权重初始化，如Xavier初始化；使用非饱和激活函数，如ReLU及其变体（LReLU、PReLU、ELU、SELU ）等。
从头构建RNN：通过定义RNN类、早停机制类、RNN训练器类、数据加载和预处理类，完整展示了使用Air passenger数据集训练RNN进行时间序列预测的过程。

6、全网最全的LLM架构讲解||LSTM原理

本文围绕长短期记忆网络（LSTM）展开，从原理、架构、工作流程、架构类型到Python实现与训练，进行了全面深入的介绍。

LSTM简介：属于RNN家族，能学习长期依赖关系，通过创建短期和长期记忆路径，解决传统RNNs平衡长短时上下文困难的问题，信息经细胞状态流动，依靠加法和乘法运算管理数据。
LSTM架构：与RNNs链状结构相似，但重复模块有四个紧密相连的功能，包括Sigmoid、Tanh激活函数、逐点乘法和逐点加法。门控机制是关键，由忘记门、输入门和输出门组成，决定信息的保留、更新和输出。
LSTM工作流程：先由忘记门确定前一细胞状态保留或丢弃的信息，再通过输入门决定当前细胞状态存储的信息，最后输出门基于细胞状态决定输出信息，整个过程在每个模块重复。
LSTM架构类型：介绍了五种常用架构。Vanilla LSTM是基本架构；Stacked LSTM由多个LSTM层堆叠；CNN LSTM结合CNN和LSTM；Encoder - Decoder LSTM用于序列到序列问题；Bidirectional LSTM适用于序列分类问题。
Python从零构建LSTM：详细给出在Python中构建LSTM的步骤，包括导入库和自定义类，如WeightInitializer、PlotManager和EarlyStopping，以及LSTM类的初始化、前向传播、反向传播、参数更新方法，还有训练器类LSTMTrainer的使用示例，并强调训练中参数设置和监控的重要性。

7、 LLM架构从基础到精通之门控循环单元（GRUs）

本文围绕门控循环单元（GRUs）展开，涵盖从基础概念到实践应用等多方面内容，是关于GRUs的深度技术科普文章。

GRUs基础：由Cho等人在2014年提出，目的是解决标准RNN的梯度消失问题。它和LSTM类似，利用门控机制管理记忆，不同在于将输入门和遗忘门合并为更新门，还增加了重置门，简化了结构。
与其他网络比较：普通RNN传递信息时存在梯度消失问题，难以学习长期依赖关系；LSTM用输入门、遗忘门和输出门解决了该问题，能处理复杂上下文；GRUs是LSTM的简化版，计算强度低、训练速度快，同时也能处理长期依赖关系。
门的功能：更新门决定过往信息传递量，重置门决定忽略过往信息的程度。在实际应用场景，如分析客户评价时，它们会根据情况调整，让模型关注关键信息。
代码实现：通过Python代码实现了一个简单的GRU类，包含前向传播、反向传播以及参数更新的方法，展示了GRU架构的核心机制。
优缺点与选择：优点是在序列数据建模、处理可变长度输入上表现出色，计算效率高且能缓解梯度消失；局限在于处理极长复杂序列时不如LSTM，表达能力相对较弱。资源有限、追求简单模型或处理短序列时适合用GRUs；需要捕获长期依赖关系、精细内存控制或处理复杂序列时，LSTMs更合适，实际应用中最好通过实验确定。
总结：全面回顾了RNNs相关知识，强调GRUs是处理序列数据的有力工具，理解其架构和原理对应用至关重要，选择GRUs还是LSTMs要综合多方面因素考量。

8、深入探究编码器 - 解码器架构：从RNN到Transformer的自然语言处理模型

文章围绕编码器 - 解码器架构展开，深入探讨其在自然语言处理领域的应用，详细介绍架构原理、训练方式、优缺点及改进方法，并列举了实际应用案例。

编码器 - 解码器架构概述：用于解决Seq2Seq问题，处理顺序数据。编码器将输入序列编码为上下文向量，解码器利用该向量生成输出序列。以神经机器翻译为例，输入英语句子，输出法语翻译。
架构内部机制：Seq2Seq模型基于RNN，常使用LSTM单元。编码器处理输入序列，其最终内部状态作为上下文向量传递给解码器；解码器根据上下文向量和前一时刻输出，逐个生成目标序列单词。
模型训练：训练前需对数据向量化，如独热编码。训练时，编码器工作方式不变，解码器采用教师强制技术，用真实输出作为下一时刻输入；测试时，解码器用上一时刻预测输出作为输入。
架构缺点：存在与长度相关的缺点，如记忆能力有限，处理长序列时会增加模糊性；训练长序列时易出现梯度消失问题。
架构改进：添加嵌入层，学习单词有意义表示；使用深度LSTM，结合相关技术缓解梯度消失问题；反转输入序列，在部分机器翻译任务中可提升性能。
示例及应用场景：可结合CNN、RNN、LSTM等网络解决不同问题，如用于图像描述、机器翻译。在Transformer模型、Make - a - Video、机器翻译、图像描述等领域均有应用。

9、 2w8000字深度解析从RNN到Transformer：构建NLP应用的架构演进之路

这篇文章围绕大型语言模型（LLM）和Transformer展开，深度解析了从传统模型到Transformer的架构演进，以及LLM的构建、训练、推理和优化等内容。

LLM概述：LLM运用深度学习和海量数据实现语言理解与生成，基于Transformer架构，具有注意力机制和自回归文本生成能力。构建和训练需收集处理大量数据，设计特定架构，利用计算能力和算法训练并不断扩展。大型语言模型操作（LLMOps）专注于其生产环境部署、监控和维护。
前Transformer时代模型：早期模型如多层感知机（MLPs）不适合序列建模；循环神经网络（RNNs）虽能处理序列数据，但存在长期依赖问题和训练速度慢的缺陷；长短期记忆网络（LSTM）一定程度改善了信息传递问题，但长句处理仍有局限；卷积神经网络（CNNs）具有并行性和局部依赖捕捉能力，但处理长距离依赖关系不佳。注意力机制一定程度解决了部分问题，但仍存在顺序训练等缺陷。
Transformer架构：为解决序列转换问题而生，核心是自注意力机制，能捕捉长距离依赖关系。由编码器、解码器组成，包含嵌入、多头自注意力、前馈神经网络等组件，各组件协同工作，将输入序列转换为输出序列。
LLM架构类型：Seq-2-Seq模型（编码器 - 解码器）适用于机器翻译、文本摘要；自动编码模型（仅编码器）专注于语言理解；自回归模型（仅解码器）擅长文本生成；专家混合（MoE）通过子模型和门控网络提升效率和多样性。
推理及优化：推理是用训练好的模型进行预测，解码器在训练和推理时工作方式不同。推理技术有贪婪搜索和束搜索。同时，Transformer推理面临内存和计算需求大、延迟高、批量大小与性能平衡难等挑战，可通过量化、键值（KV）缓存、推测解码、批处理、硬件优化、FlashAttention等技术优化。
其他要点：对推理性能进行基准测试可评估优化效果。未来趋势包括内存优化、注意力机制优化、并行性提升和推测推理应用。处理大型数据集需高效的数据加载和预处理、分布式训练等策略。

10、 3w字使用pytorch实现Transformer

文章围绕Transformer架构展开，详细介绍其理论、构建过程、训练方法及相关知识，旨在帮助读者深入理解并掌握Transformer模型。

Transformer架构概述：2017年谷歌提出的Transformer架构引发了机器学习领域的变革，其凭借并行处理能力在自然语言处理任务中表现出色，并为后续模型奠定基础。
Transformer架构解析：训练时，输入序列经嵌入、编码等处理，解码器结合编码器输出生成目标序列，通过损失函数和反向传播训练模型。其主要由编码器和解码器组成，包含多头注意力机制、前馈网络等模块，各模块协同工作。
从头构建Transformer模型：利用PyTorch构建模型，涵盖输入嵌入、位置编码等多个组件。同时，介绍分词器、数据集加载、验证循环和训练循环等内容，完成模型的搭建与训练准备。
损失函数：常用损失函数包括交叉熵损失，可通过标签平滑优化。此外，还有标记级损失和序列级损失，适用于不同任务。
知识问答：针对Transformer架构的关键知识点设置问答，涵盖自注意力机制、位置编码等多方面，加深读者对架构的理解。

11. 全网最全的神经网络数学原理（代码和公式）直观解释，全网最全，没有之一

文章主要对神经网络背后的数学原理进行了直观解释，通过理论讲解、公式推导和Python代码示例，深入剖析了神经网络在分类和回归问题中的应用及原理。

神经网络基础概念：神经网络能学习复杂数据模式，本文采用可视化方式解读。单层神经网络包含输入层和输出层，输入层仅传递数据。感知器是首个神经网络，用于二元分类，其输出层计算输入特征加权和，通过阶跃函数激活。
分类问题中的神经网络
- 单层网络：感知器决策边界是直线，垂直于权重向量。Sigmoid神经元将激活函数换为Sigmoid函数，可输出预测概率，其决策边界同样是直线。增加特征后，决策边界在3D空间为平面，更高维则是超平面，感知器和Sigmoid神经元都属于线性分类器。
- 多类分类：多类分类需softmax层，它是Sigmoid函数的泛化。以有2个特征、3个标签的数据集为例，softmax创建多个决策边界，每个都是直线，垂直于特定向量，推广到高维，决策边界是超平面。
- 多层网络：非线性可分数据集用单层网络效果差，多层网络隐藏层可将原始数据集转化为线性可分数据。如含ReLU激活函数的隐藏层，可将二维非线性可分数据转化为三维线性可分数据，输出层再进行分类。非线性激活函数对隐藏层至关重要，用线性激活函数无法使隐藏层有效转换数据集。
回归问题中的神经网络
- 单层网络：单层神经网络若输出层为线性激活函数，使用均方误差成本函数时，行为类似线性回归模型。
- 多层网络：要学习非线性数据集，需在隐藏层添加非线性激活函数，如ReLU。通用近似定理表明，含足够神经元隐藏层和合适激活函数的前馈神经网络可逼近任何连续函数，增加隐藏层神经元数量能提高逼近能力。

12. 20000字的注意力机制讲解，全网最全

这篇文章围绕注意力机制展开，详细介绍其在深度学习模型中的应用，涵盖自然语言处理和计算机视觉领域，具体内容如下：

引言：注意力机制在处理长距离依赖任务中发挥关键作用，如NLP、机器翻译和图像识别。它解决了传统Seq2Seq模型处理长序列时上下文向量无法有效容纳信息的问题。
注意力机制详解
- 核心思想：在解码器每个时间步创建新的上下文向量，使解码器能访问所有编码器隐藏状态，专注输入序列相关部分，提升处理长序列能力。
- 工作原理：以seq2seq + 注意力模型为例，包括准备隐藏状态、获取分数、Softmax处理、加权求和及输入解码器5个步骤，训练和推理过程有所不同，依赖反向传播优化。
模型中的注意力机制运作：模型先处理输入生成隐藏状态，再计算注意力分数，经Softmax归一化后加权求和得到上下文向量，解码器利用其生成输出序列。
注意力机制类型：介绍Bahdanau、Luong、自注意力、多头注意力、交叉注意力等多种机制，以及谷歌神经机器翻译（GNMT），并对比全局与局部、硬注意力与软注意力的差异。
LSTM上的注意力机制：相关论文将注意力机制与LSTM结合用于机器阅读任务，提升模型性能，与自注意力机制存在区别。
评分函数：介绍加法/拼接、点积等评分函数，点积运算衡量向量相似性，前馈神经网络用于学习对齐权重。
计算机视觉中的注意力机制：包括空间、通道、自注意力等类型，应用于目标检测、图像描述等任务，能提升模型性能。

13. 2w字解析量化技术，全网最全的大模型量化技术解析

这篇文章围绕机器学习中的量化技术在大语言模型中的应用展开，介绍了量化的概念、优势、技术方法等内容。

量化的优势与大语言模型的规模挑战
- 优势：量化能降低内存占用、加快推理速度、减少能源消耗并提升部署灵活性。
- 挑战：现代大语言模型参数规模庞大，对内存要求高。不同位宽浮点格式各有优劣，减少位大小会引入近似误差，需平衡误差与内存、计算速度的关系。
量化基础
- 数据格式：介绍IEEE-754浮点标准下的FP32、FP16、Bfloat16及INT8、INT4整数格式的构成与范围。
- 量化过程与类型：量化过程包括确定数值动态范围、选择缩放因子、映射为整数及存储缩放因子；量化类型有对称量化和非对称量化，各有特点与计算方式。
- 特定任务建议：自然语言处理训练用BF16、推理用INT8；图像处理训练用FP16，推理用INT8或INT4；Transformer模型注意力层可混合使用INT8和INT4。
- 裁剪与校准：裁剪可处理异常值，减少其对量化的影响；校准是选择最优范围，不同类型参数（权重和激活值）校准技术不同。
量化技术
- 训练后量化（PTQ）：权重量化可选择对称或非对称量化；激活值量化有动态量化和静态量化两种方式，各有利弊，并给出PyTorch实现代码示例。4位量化有GPTQ、GGML和GGUF、AWQ等方法，分别介绍其原理与优势。
- 量化感知训练（QAT）：在训练过程中引入伪量化，使模型适应量化变化，能找到损失曲面中的宽最小值，提高低精度下模型性能。
- BitNet：将量化集成到Transformer架构，使用1比特值表示权重，后发展为1.58比特量化，通过特定量化策略提高计算效率。

14. Transformer ：数学解释为什么缩放点积会导致更稳定的梯度

15. 2W8000字深度剖析25种RAG变体：全网最全~没有之一

本文围绕25种RAG变体展开，深入探讨其架构、组件、流程及代码实现，为LLM动态增强提供全面指引。

RAG变体分类及介绍：主流RAG框架分为成本控制型、实时互动型、域专家类型、认知增强型、安全与合规类型。文中详细介绍了25种RAG变体，如标准RAG由检索和生成模块构成，能动态注入外部知识；CRAG增加迭代反馈循环，减少幻觉；Speculative RAG采用双模型策略，提升速度和准确性。
具体实现代码示例：针对每种变体给出关键代码示例，像标准RAG的查询编码器、文档分割、索引检索、提示构造及生成的代码；CRAG置信度评分和反馈回路代码等，助读者理解其技术细节。
各变体关键优势：每个变体都有独特优势，如Self - RAG可减少对外部资源依赖，提升模型自主性；自适应RAG能优化资源利用，提升性能；REFEED无需重新训练模型就能提高回答准确性。
应用场景及价值：这些变体适用于智能问答、文档生成、多模态任务、翻译等领域，能提升模型性能和回答质量，为用户提供更优质服务体验。

16. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路

这篇文章回顾了2017 - 2025年大语言模型的发展历程，介绍关键模型、技术及影响，强调发展推动人工智能走向更具包容性和影响力的未来。

语言模型基础：语言模型旨在处理、理解和生成类人语言，多数大语言模型自回归运行，依前文预测后文，按此生成文本，应用广泛。
关键发展阶段
- Transformer革命（2017年）：Transformer架构解决早期模型处理长距离依赖和顺序处理难题，其自注意力、多头注意力等创新，为大规模高效语言模型奠基。
- 预训练Transformer模型时代（2018 - 2020年）：BERT双向训练提升语言理解能力；GPT系列专注生成，通过自回归预训练和微调，在多任务表现出色，GPT-3展示规模效应。
- 训练后对齐（2021 - 2022年）：为解决大语言模型"幻觉"等问题，开发SFT和RLHF技术。ChatGPT基于GPT-3.5，经对话数据微调与RLHF，推动对话式人工智能发展。
- 多模态模型（2023 - 2024年）：GPT-4V结合视觉与语言能力，GPT-4o整合多模态，在多行业引发变革。同时，开源和开放权重模型兴起，促进社区创新。
- 推理模型（2024 - 2025年）：2024年人工智能注重推理能力提升，OpenAI-o1通过思维链增强推理，在多领域表现优异。2025年DeepSeek-R1及其相关模型，以低训练成本实现高性能推理，在多基准测试表现出色，降低使用成本，挑战行业格局。
总结与展望：大语言模型发展历程中，Transformer架构、GPT-3、ChatGPT、DeepSeek-R1具有里程碑意义，推动人工智能朝着更具包容性和影响力的未来发展。

17. LLMs的知识蒸馏：技术和应用

这篇文章围绕LLMs的知识蒸馏技术展开，全面介绍了其技术原理和应用，旨在帮助读者深入理解并掌握这一重要技术，具体内容如下：

知识蒸馏的背景与定义：大规模机器学习和深度学习模型虽性能强大，但部署困难，知识蒸馏能将复杂模型知识提炼到较小模型，克服这些挑战。它是将知识从大型复杂模型转移到单个较小模型的过程，本质是模型压缩，随着深度学习发展受到广泛关注。
知识蒸馏的关键要素
- 知识类型：包括基于响应、基于特征和基于关系的知识，分别侧重于教师模型的输出层、中间层和特征图之间的关系。
- 训练方式：有离线蒸馏（使用预训练教师模型指导学生模型）、在线蒸馏（教师和学生模型同时更新）和自蒸馏（教师和学生模型相同，用深层知识训练浅层）。
- 师生架构：学生模型可以是教师模型的较浅版本、量化版本等，还可通过神经架构搜索设计最佳学生模型架构。
- 蒸馏算法：介绍了对抗性蒸馏、多教师蒸馏、跨模态蒸馏等多种算法，以及基于图、注意力、无数据、量化、终身和基于神经架构搜索的蒸馏算法。
知识蒸馏的应用：在视觉、自然语言处理和语音领域应用广泛。视觉领域用于图像分类、人脸识别等众多任务；自然语言处理领域可获得轻量级模型，应用于神经机器翻译、文本生成等场景，DistilBERT是典型案例；语音领域用于语音识别、口语识别等，如Amazon Alexa的声学建模。
总结：知识蒸馏是训练高效轻量级模型的有效机制，基于多种知识、训练方案、架构和算法，在多个领域取得巨大成功。

18. 3W6000字了解大模型LLM：部署、优化与框架

文章围绕大语言模型（LLM）的部署、优化与框架展开，全面介绍了LLM服务相关知识，具体内容如下：

LLM服务基础
- 服务内容：包括高效处理、模型部署、API创建和基础设施管理，旨在使LLM能实时响应查询。
- 本地运行优势及条件：本地运行LLM具有隐私性和成本优势，需具备开源LLM和在本地设备运行的推理能力。
加载LLM的方法与框架
- 多种框架对比：介绍HuggingFace、LangChain、Llama.cpp等多种加载LLM的框架，分析各自优缺点及使用方法。
- 分片与量化技术：分片将模型拆分成小块以减少VRAM需求；量化通过转换数据表示形式减小模型大小和内存需求，介绍了Bitsandbytes、GPTQ、AWQ和GGUF等量化方法。
推理优化策略
- 理解推理过程：LLM推理分预填充阶段和解码阶段，请求批处理和连续批处理可优化推理，但存在内存限制问题。
- 优化技术：介绍PagedAttention、KV缓存等优化技术，以及模型并行化（流水线并行、张量并行、序列并行）和注意力机制优化（多头注意力、多查询注意力等）方法。
模型优化技术：包括量化、稀疏性和蒸馏。量化降低模型权重和激活值精度；稀疏性将接近0的值替换为0并用压缩形式表示矩阵；蒸馏把大模型知识转移到小模型中。
模型服务技术
- 正在进行的批处理：大语言模型任务多样，导致批处理困难，连续批处理可提高GPU利用率。
- 推测性推理：针对自回归模型按token生成文本的特点，通过"成本较低"的过程生成草稿续写内容，再由验证模型并行验证，提高生成效率。
服务指标与组件
- 评估指标：使用首token生成时间、每个输出token的生成时间、延迟和吞吐量四个关键指标评估大语言模型服务。
- 组件功能：引擎负责运行模型和请求批处理，服务器负责转发用户请求，二者功能不同但相互配合。
服务框架介绍：介绍vLLM、文本生成推理（TGI）、CTranslate2、DeepSpeed - MII、OpenLLM、Ray Serve、MLC LLM等框架，对比其用法、特色功能、优势和局限性，为不同需求提供选择参考。
结论与建议：内存管理对LLM性能至关重要，不同框架在不同方面各有优劣。根据追求速度、HuggingFace支持、CPU推理、使用适配器等不同需求，可选择相应的框架。

19. 2W8000字揭秘RAG：从基础到高级的逆袭，彻底重塑大模型！

文章围绕检索增强生成（RAG）技术展开，全面且深入地介绍了从基础概念到高级技术、应用场景以及性能评估等多方面的内容，具体如下：

RAG增强技术分类：涵盖基础RAG、高级RAG和模块化RAG三种范式，其基本流程包括索引构建、检索和生成三个关键步骤。
基础RAG的问题：在索引构建、检索、生成三个环节均存在问题，如信息提取不完整、召回率低、大语言模型生成错误等，有很大的优化提升空间。
高级RAG
- 关键特征：采用先进检索算法、增强检索数据整合、具备迭代优化能力和反馈循环学习机制。
- 优化阶段：检索前优化聚焦数据索引和查询处理；检索优化围绕嵌入模型展开，还包括混合搜索等技术；检索后优化通过提示压缩、重新排序和过滤等操作，提升文本生成质量。
高级RAG技术
- 检索前技术：介绍PDF解析、上下文丰富、查询改写、语义分块、数据修改、查询路由等多种技术，每种技术都针对基础RAG的问题提出解决方案，如不同的PDF解析方法、多种查询改写算法等。
- 检索技术：融合检索/混合搜索结合传统与现代搜索优势，借助逆序排名融合算法提升检索效果。
- 检索后技术：提示压缩、重新排序、过滤、Self - RAG、校正检索增强生成（CRAG）、RAG融合等技术，从不同角度优化检索结果，提高生成内容的质量和相关性。
生成技术：包括增强和定制两方面。前者利用如"演示 - 搜索 - 预测"等框架优化生成过程；后者通过参数知识引导等方法定制大语言模型输出。
聊天引擎：构建RAG系统需考虑聊天逻辑，通过查询压缩技术处理对话上下文，如ContextChatEngine和CondensePlusContextMode等实现方式。
RAG中的智能体：智能体为大语言模型提供工具执行任务，OpenAI Assistants具备多种实用工具，多文档智能体方案可实现复杂的文档处理功能，但存在速度较慢的问题。
编码器和大语言模型微调：对Transformer编码器、排序器和大语言模型进行微调，可以提升检索质量和生成答案的能力，但要注意可能存在的问题，如使用小型合成数据集微调可能降低模型整体能力。
评估：有多种评估RAG系统性能的框架，如Ragas、OpenAI的方法、LangChain的LangSmith等，通过答案相关性、忠实度等指标评估系统表现。

20. 3W4000字大模型评估全解析：方法、指标与框架

这篇文章围绕大语言模型评估展开，详细介绍了评估方法、指标、框架等内容，旨在帮助读者全面了解大语言模型评估体系，具体如下：

评估的重要性与思路：大语言模型应用广泛，但如何评估其有效性至关重要。选择模型时，不能仅依赖提示工程，要根据是否有标准答案、是否需自动化评估、有无时间限制等因素，选择合适的评估策略，如准确率、相似性指标、大语言模型评判器或人工评估等。
基准测试与评估的差异：基准测试是标准化测试，用预定义数据集和指标评估模型在特定任务上的表现，便于比较和量化结果；评估范围更广，除测试外还考虑模型实际适用性、公平性、可解释性等，常以基准测试为基础。
大语言模型基准测试
- 框架与能力评估：基准测试框架通过标准化测试评估模型推理、理解等多种能力，涵盖推理和常识、语言理解、编码、对话等多个方面。
- 主要基准测试：介绍语言理解和问答、常识和推理、编码、对话和聊天机器人等领域的常用基准测试，如TruthfulQA、MMLU、ARC、HumanEval、Chatbot Arena等。
- 局限性：基准测试存在领域相关性差、生命周期短等问题，但可通过合成数据生成等方法克服。
评估指标：评估指标根据任务需求对模型输出评分，优秀指标具有可量化、可靠、准确的特点。计算指标分数的方法包括统计评分器、基于模型的评分器，以及结合两者的评分器，不同方法各有优劣。
评估基于大语言模型的应用：依据交互模式和预期答案类型选择评估指标，如知识寻求、文本关联、创造力等交互模式。评估前要先评估评估策略与人类判断的相关性，构建评估集时要保证数据集足够大且能代表生产环境数据。
大语言模型评估框架：介绍DeepEval等多种评估框架，其中DeepEval是开源框架，具有易"单元测试"、指标丰富、可自定义等特点，还介绍了其在评估RAG相关指标及微调指标方面的应用。

21. 2W6000字大模型核心技术综述：微调、推理与优化指南

这篇文章围绕大语言模型展开，涵盖模型基础概念、架构发展、训练优化、推理参数、提示工程以及模型优化技术等多方面内容。

大语言模型基础：大语言模型（LLM）是基于Transformer架构的深度学习模型，在大量数据上预训练，能理解文本关系。语言模型学习文本语料库生成概率，预测后续单词，经历了从n - gram到神经语言模型的发展。
架构发展：早期大语言模型多基于RNN及LSTM、GRU，但存在训练慢、梯度消失等问题。Transformer架构解决了这些问题，它采用自注意力机制，可并行处理，训练时间短，成为当前大语言模型的主流架构。
训练与优化：预训练阶段在大量文本上自监督训练，计算成本高。数据并行训练技术如分布式数据并行（DDP）和全分片数据并行（FSDP）可解决内存问题。微调能让模型适应特定任务，迁移学习、PEFT等多种技术可实现高效微调。
推理参数：使用大语言模型推理时，可配置Top-k采样、温度参数、Top-P采样、最大长度、上下文提示等参数，控制输出的多样性、连贯性和长度。
提示工程：提示工程是与大语言模型沟通的方法，通过构建提示引导模型行为。包括少样本提示、思维链（CoT）提示、PAL、ReAct提示等，能提升模型在不同任务中的表现。
模型优化技术：模型压缩方法有量化、蒸馏和剪枝。量化通过降低权重精度减小模型大小，有训练后量化和量化感知训练两种方式；蒸馏将教师模型知识转移到学生模型；剪枝通过修剪权重或连接减小模型大小，分非结构化和结构化剪枝。

22. 1W8000 字探秘 RAG 应用搜索：从语义搜索到评估指标的深度解析

本文围绕检索增强生成（RAG）应用程序中的搜索过程展开探讨，涵盖搜索优势、面临问题、搜索类型、检索算法等多方面内容，强调持续优化和全面评估的重要性。

RAG应用中的搜索概述：在RAG流程里，用户查询经分词和嵌入处理后，从知识库提取相关文本块。以开发客户支持聊天机器人为例，该方式能减少大语言模型处理数据的时间和资源，支持数据库实时更新，提升回复质量和客户满意度。
搜索与检索的问题及优化
- 存在问题：独特或高度特定的查询可能导致系统匹配不到完全相关的文本块，使大语言模型回复不理想，降低用户满意度。
- 预防策略：监测查询密度，若其漂移则扩充向量存储；关注排名指标评估系统性能；收集用户反馈，依此调整应用程序。
- 优化措施：构建阶段注重测试和评估，优化分块策略和检索性能；生产后阶段持续扩展知识库、优化分块策略、增强上下文理解。
搜索类型
- 关键词搜索：适用于用户明确搜索内容，期望精确匹配的场景，无需向量数据库。
- 向量搜索：适用于用户搜索目标不明确的情况，需向量数据库支持。
- 混合搜索：结合全文关键词搜索和向量搜索结果，并用交叉编码器模型重新排名，需要文档数据库和向量数据库。
检索算法：相似性搜索常用余弦相似度等度量返回相似文档，最大边际相关性（MMR）则在检索时考虑文档间相似程度，使结果更具多样性。
检索与重排：复杂搜索任务中，先通过检索系统（如词汇搜索或密集检索）获取候选文档，再用基于交叉编码器的重排器对其相关性评分排序，以提升搜索效果。文中还介绍了预训练双编码器和交叉编码器的使用。
信息检索的评估：评估指标分在线指标（如点击率，反映用户交互情况）和离线指标（在部署前测量，关注检索结果相关性）。离线指标又分无序敏感指标（如召回率@K ）和有序敏感指标（如平均倒数排名、平均精度均值@K、归一化折损累计增益@K ）。实际应用中可多个指标结合使用，提升评估准确性。

本文由mdnice多平台发布