happy-llm笔记

不同于 BERT 选择了可 训练的全连接层作为位置编码,GPT 沿⽤了 Transformer 的经典 Sinusoidal 位置编码,即通过三⻆函数进⾏绝对 位置编码,

Decoder-Only 模型往往选择了最传统也最直接的 预训练任务------因果语⾔模型,Casual Language Model,

区分 LLM 与传统 PLM 最显著的特征即是 LLM 具备 涌现能⼒ 。涌现能⼒是指同样的模型架构与预训练任务下,某 些能⼒在⼩型模型中不明显,但在⼤型模型中特别突出。可以类⽐到物理学中的相变现象,涌现能⼒的显现就像是 模型性能随着规模增⼤⽽迅速提升,超过了随机⽔平,也就是我们常说的量变引起了质变。

LLM ⼤部分采⽤了旋转位置编码(Rotary Positional Encoding,RoPE)

训练⼀个完整的 LLM 需要经过图1中的三个阶段------Pretrain、SFT(Supervised Fine-Tuning,监督式微调) 和 RLHF(Reinforcement Learning from Human Feedback,结合人类反馈进行强化学习,让模型的回答更符合人类偏好(安全、有用、礼貌)。)

,分布式训练框架也成为 LLM 训练必不可少的组成部分。分布式训练框架的核⼼思路是数据并⾏和模 型并⾏。

语料过滤。语料过滤的核⼼⽬的是去除低质量、⽆意义、有毒有害的内容,例如乱码、⼴告等。语料过滤⼀般 有两种⽅法:基于模型的⽅法,即通过⾼质量语料库训练⼀个⽂本分类器进⾏过滤;基于启发式的⽅法,⼀般 通过⼈⼯定义 web 内容的质量指标,计算语料的指标值来进⾏过滤。

ollama是一个开源的本地大语言模型运行框架,

针对全量微调的昂贵问题,⽬前主要有两种解决⽅案: Adapt Tuning。即在模型中添加 Adapter 层,在微调时冻结原参数,仅更新 Adapter 层。其在预训练模型每层中插⼊⽤于下游任务的参数,即 Adapter 模块

Prefix Tuning。该种⽅法固定预训练 LM,为 LM 添加可训练,任务特定的前缀,这样就可以为不同任务保存不同 的前缀,微调成本也⼩。具体⽽⾔,在每⼀个输⼊ token 前构造⼀段与下游任务相关的 virtual tokens 作为 prefix,在微调时只更新 prefix 部分的参数,⽽其他参数冻结不变。

![[Pasted image 20251120162816.png]]

RAG(Retrieval-Augmented Generation,检索增强生成)

RAG 在⽣成答案之前,⾸先从外部的⼤规模⽂档数据库中检索出相关信息,并将这些信息融⼊到⽣成过 程之中,从⽽指导和优化语⾔模型的输出。

RAG 的核⼼原理在于将"检索"与"⽣成"结合:当⽤户提出查询时,系统⾸先通过检索模块找到与问题相关的⽂本⽚ 段,然后将这些⽚段作为附加信息传递给语⾔模型,模型据此⽣成更为精准和可靠的回答。

![[Pasted image 20251120170047.png]]

虽然LLM Agent的概念还在快速发展中,但根据其设计理念和能⼒侧重,我们可以⼤致将其分为⼏类:

任务导向型Agent(Task-Oriented Agents):

特点: 专注于完成特定领域的、定义明确的任务,例如客户服务、代码⽣成、数据分析等。

⼯作⽅式: 通常有预设的流程和可调⽤的特定⼯具集。LLM主要负责理解⽤户意图、填充任务槽位、⽣成回

应或调⽤合适- 的⼯具。

例⼦: 专⻔⽤于预订餐厅的聊天机器⼈、辅助编程的代码助⼿(如GitHub Copilot在某些⾼级功能上体现了

Agent特性)。

规划与推理型Agent(Planning & Reasoning Agents):

特点: 强调⾃主分解复杂任务、制定多步计划,并根据环境反馈进⾏调整的能⼒。它们通常需要更强的推理

能⼒。

⼯作⽅式: 常采⽤特定的思维框架,如ReAct (Reason+Act),让模型先进⾏"思考"(Reasoning)分析当前情

况和所需⾏动,然后执⾏"⾏动"(Action)调⽤⼯具,再根据⼯具返回结果进⾏下⼀轮思考。Chain-of

Thought (CoT) 等提示⼯程技术也是其推理的基础。

例⼦: 需要整合⽹络搜索、计算器、数据库查询等多种⼯具来回答复杂问题的研究型Agent,或者能够⾃主完

成"写⼀篇关于XX主题的报告,并配上相关数据图表"这类任务的Agent。

多Agent系统(Multi-Agent Systems):

特点: 由多个具有不同⻆⾊或能⼒的Agent协同⼯作,共同完成⼀个更宏⼤的⽬标。

⼯作⽅式: Agent之间可以进⾏通信、协作、辩论甚⾄竞争。例如,⼀个Agent负责规划,⼀个负责执⾏,⼀

个负责审查。

例⼦: 模拟软件开发团队(产品经理Agent、程序员Agent、测试员Agent)来⾃动⽣成和测试代码;模拟⼀

个公司组织结构来完成商业策划。AutoGen、ChatDev等框架⽀持这类系统的构建。

探索与学习型Agent(Exploration & Learning Agents):

特点: 这类Agent不仅执⾏任务,还能在与环境的交互中主动学习新知识、新技能或优化⾃身策略,类似于强

化学习中的Agent概念。

⼯作⽅式: 可能包含更复杂的记忆和反思机制,能够根据成功或失败的经验调整未来的规划和⾏动。

例⼦: 能在未知软件环境中⾃主探索学习如何操作的Agent,或者在玩游戏时不断提升策略的Agent。

相关推荐
IUGEI2 小时前
【后端开发笔记】JVM底层原理-垃圾回收篇
java·jvm·笔记·后端
摇滚侠2 小时前
Vue 项目实战《尚医通》,完成订单详情静态的搭建,笔记47
vue.js·笔记
('-')2 小时前
《从根上理解MySQL是怎样运行的》第五章学习笔记
笔记·学习·mysql
AA陈超3 小时前
以 Lyra 的架构为基础,创建一个名为 “Aura“ 的英雄并实现发射火球技能
c++·笔记·学习·ue5·lyra
('-')4 小时前
《从根上理解MySQL是怎样运行的》第二张学习笔记
笔记·学习·mysql
d111111111d5 小时前
STM32外设学习-I2C通信(代码)--MPU6050--笔记
笔记·stm32·单片机·嵌入式硬件·学习
自小吃多6 小时前
正点原子-梯形加减速
笔记
linly12196 小时前
ERP学习笔记-时域分析
笔记·学习
诸葛思颖7 小时前
【论文阅读笔记】FedProx
论文阅读·笔记