happy-llm笔记 - 技术栈

不同于 BERT 选择了可训练的全连接层作为位置编码，GPT 沿⽤了 Transformer 的经典 Sinusoidal 位置编码，即通过三⻆函数进⾏绝对位置编码，

Decoder-Only 模型往往选择了最传统也最直接的预训练任务------因果语⾔模型，Casual Language Model，

区分 LLM 与传统 PLM 最显著的特征即是 LLM 具备涌现能⼒。涌现能⼒是指同样的模型架构与预训练任务下，某些能⼒在⼩型模型中不明显，但在⼤型模型中特别突出。可以类⽐到物理学中的相变现象，涌现能⼒的显现就像是模型性能随着规模增⼤⽽迅速提升，超过了随机⽔平，也就是我们常说的量变引起了质变。

LLM ⼤部分采⽤了旋转位置编码（Rotary Positional Encoding，RoPE）

训练⼀个完整的 LLM 需要经过图1中的三个阶段------Pretrain、SFT（Supervised Fine-Tuning，监督式微调）和 RLHF（Reinforcement Learning from Human Feedback，结合人类反馈进行强化学习，让模型的回答更符合人类偏好（安全、有用、礼貌）。）

，分布式训练框架也成为 LLM 训练必不可少的组成部分。分布式训练框架的核⼼思路是数据并⾏和模型并⾏。

语料过滤。语料过滤的核⼼⽬的是去除低质量、⽆意义、有毒有害的内容，例如乱码、⼴告等。语料过滤⼀般有两种⽅法：基于模型的⽅法，即通过⾼质量语料库训练⼀个⽂本分类器进⾏过滤；基于启发式的⽅法，⼀般通过⼈⼯定义 web 内容的质量指标，计算语料的指标值来进⾏过滤。

ollama是一个开源的本地大语言模型运行框架，

针对全量微调的昂贵问题，⽬前主要有两种解决⽅案： Adapt Tuning。即在模型中添加 Adapter 层，在微调时冻结原参数，仅更新 Adapter 层。其在预训练模型每层中插⼊⽤于下游任务的参数，即 Adapter 模块

Prefix Tuning。该种⽅法固定预训练 LM，为 LM 添加可训练，任务特定的前缀，这样就可以为不同任务保存不同的前缀，微调成本也⼩。具体⽽⾔，在每⼀个输⼊ token 前构造⼀段与下游任务相关的 virtual tokens 作为 prefix，在微调时只更新 prefix 部分的参数，⽽其他参数冻结不变。

![[Pasted image 20251120162816.png]]

RAG（Retrieval-Augmented Generation，检索增强生成）

RAG 在⽣成答案之前，⾸先从外部的⼤规模⽂档数据库中检索出相关信息，并将这些信息融⼊到⽣成过程之中，从⽽指导和优化语⾔模型的输出。

RAG 的核⼼原理在于将"检索"与"⽣成"结合：当⽤户提出查询时，系统⾸先通过检索模块找到与问题相关的⽂本⽚段，然后将这些⽚段作为附加信息传递给语⾔模型，模型据此⽣成更为精准和可靠的回答。

![[Pasted image 20251120170047.png]]

虽然LLM Agent的概念还在快速发展中，但根据其设计理念和能⼒侧重，我们可以⼤致将其分为⼏类：

任务导向型Agent（Task-Oriented Agents）：

特点：专注于完成特定领域的、定义明确的任务，例如客户服务、代码⽣成、数据分析等。

⼯作⽅式：通常有预设的流程和可调⽤的特定⼯具集。LLM主要负责理解⽤户意图、填充任务槽位、⽣成回

应或调⽤合适- 的⼯具。

例⼦：专⻔⽤于预订餐厅的聊天机器⼈、辅助编程的代码助⼿（如GitHub Copilot在某些⾼级功能上体现了

Agent特性）。

规划与推理型Agent（Planning & Reasoning Agents）：

特点：强调⾃主分解复杂任务、制定多步计划，并根据环境反馈进⾏调整的能⼒。它们通常需要更强的推理

能⼒。

⼯作⽅式：常采⽤特定的思维框架，如ReAct (Reason+Act)，让模型先进⾏"思考"（Reasoning）分析当前情

况和所需⾏动，然后执⾏"⾏动"（Action）调⽤⼯具，再根据⼯具返回结果进⾏下⼀轮思考。Chain-of

Thought (CoT) 等提示⼯程技术也是其推理的基础。

例⼦：需要整合⽹络搜索、计算器、数据库查询等多种⼯具来回答复杂问题的研究型Agent，或者能够⾃主完

成"写⼀篇关于XX主题的报告，并配上相关数据图表"这类任务的Agent。

多Agent系统（Multi-Agent Systems）：

特点：由多个具有不同⻆⾊或能⼒的Agent协同⼯作，共同完成⼀个更宏⼤的⽬标。

⼯作⽅式： Agent之间可以进⾏通信、协作、辩论甚⾄竞争。例如，⼀个Agent负责规划，⼀个负责执⾏，⼀

个负责审查。

例⼦：模拟软件开发团队（产品经理Agent、程序员Agent、测试员Agent）来⾃动⽣成和测试代码；模拟⼀

个公司组织结构来完成商业策划。AutoGen、ChatDev等框架⽀持这类系统的构建。

探索与学习型Agent（Exploration & Learning Agents）：

特点：这类Agent不仅执⾏任务，还能在与环境的交互中主动学习新知识、新技能或优化⾃身策略，类似于强

化学习中的Agent概念。

⼯作⽅式：可能包含更复杂的记忆和反思机制，能够根据成功或失败的经验调整未来的规划和⾏动。

例⼦：能在未知软件环境中⾃主探索学习如何操作的Agent，或者在玩游戏时不断提升策略的Agent。