happy-llm笔记

不同于 BERT 选择了可 训练的全连接层作为位置编码,GPT 沿⽤了 Transformer 的经典 Sinusoidal 位置编码,即通过三⻆函数进⾏绝对 位置编码,

Decoder-Only 模型往往选择了最传统也最直接的 预训练任务------因果语⾔模型,Casual Language Model,

区分 LLM 与传统 PLM 最显著的特征即是 LLM 具备 涌现能⼒ 。涌现能⼒是指同样的模型架构与预训练任务下,某 些能⼒在⼩型模型中不明显,但在⼤型模型中特别突出。可以类⽐到物理学中的相变现象,涌现能⼒的显现就像是 模型性能随着规模增⼤⽽迅速提升,超过了随机⽔平,也就是我们常说的量变引起了质变。

LLM ⼤部分采⽤了旋转位置编码(Rotary Positional Encoding,RoPE)

训练⼀个完整的 LLM 需要经过图1中的三个阶段------Pretrain、SFT(Supervised Fine-Tuning,监督式微调) 和 RLHF(Reinforcement Learning from Human Feedback,结合人类反馈进行强化学习,让模型的回答更符合人类偏好(安全、有用、礼貌)。)

,分布式训练框架也成为 LLM 训练必不可少的组成部分。分布式训练框架的核⼼思路是数据并⾏和模 型并⾏。

语料过滤。语料过滤的核⼼⽬的是去除低质量、⽆意义、有毒有害的内容,例如乱码、⼴告等。语料过滤⼀般 有两种⽅法:基于模型的⽅法,即通过⾼质量语料库训练⼀个⽂本分类器进⾏过滤;基于启发式的⽅法,⼀般 通过⼈⼯定义 web 内容的质量指标,计算语料的指标值来进⾏过滤。

ollama是一个开源的本地大语言模型运行框架,

针对全量微调的昂贵问题,⽬前主要有两种解决⽅案: Adapt Tuning。即在模型中添加 Adapter 层,在微调时冻结原参数,仅更新 Adapter 层。其在预训练模型每层中插⼊⽤于下游任务的参数,即 Adapter 模块

Prefix Tuning。该种⽅法固定预训练 LM,为 LM 添加可训练,任务特定的前缀,这样就可以为不同任务保存不同 的前缀,微调成本也⼩。具体⽽⾔,在每⼀个输⼊ token 前构造⼀段与下游任务相关的 virtual tokens 作为 prefix,在微调时只更新 prefix 部分的参数,⽽其他参数冻结不变。

![[Pasted image 20251120162816.png]]

RAG(Retrieval-Augmented Generation,检索增强生成)

RAG 在⽣成答案之前,⾸先从外部的⼤规模⽂档数据库中检索出相关信息,并将这些信息融⼊到⽣成过 程之中,从⽽指导和优化语⾔模型的输出。

RAG 的核⼼原理在于将"检索"与"⽣成"结合:当⽤户提出查询时,系统⾸先通过检索模块找到与问题相关的⽂本⽚ 段,然后将这些⽚段作为附加信息传递给语⾔模型,模型据此⽣成更为精准和可靠的回答。

![[Pasted image 20251120170047.png]]

虽然LLM Agent的概念还在快速发展中,但根据其设计理念和能⼒侧重,我们可以⼤致将其分为⼏类:

任务导向型Agent(Task-Oriented Agents):

特点: 专注于完成特定领域的、定义明确的任务,例如客户服务、代码⽣成、数据分析等。

⼯作⽅式: 通常有预设的流程和可调⽤的特定⼯具集。LLM主要负责理解⽤户意图、填充任务槽位、⽣成回

应或调⽤合适- 的⼯具。

例⼦: 专⻔⽤于预订餐厅的聊天机器⼈、辅助编程的代码助⼿(如GitHub Copilot在某些⾼级功能上体现了

Agent特性)。

规划与推理型Agent(Planning & Reasoning Agents):

特点: 强调⾃主分解复杂任务、制定多步计划,并根据环境反馈进⾏调整的能⼒。它们通常需要更强的推理

能⼒。

⼯作⽅式: 常采⽤特定的思维框架,如ReAct (Reason+Act),让模型先进⾏"思考"(Reasoning)分析当前情

况和所需⾏动,然后执⾏"⾏动"(Action)调⽤⼯具,再根据⼯具返回结果进⾏下⼀轮思考。Chain-of

Thought (CoT) 等提示⼯程技术也是其推理的基础。

例⼦: 需要整合⽹络搜索、计算器、数据库查询等多种⼯具来回答复杂问题的研究型Agent,或者能够⾃主完

成"写⼀篇关于XX主题的报告,并配上相关数据图表"这类任务的Agent。

多Agent系统(Multi-Agent Systems):

特点: 由多个具有不同⻆⾊或能⼒的Agent协同⼯作,共同完成⼀个更宏⼤的⽬标。

⼯作⽅式: Agent之间可以进⾏通信、协作、辩论甚⾄竞争。例如,⼀个Agent负责规划,⼀个负责执⾏,⼀

个负责审查。

例⼦: 模拟软件开发团队(产品经理Agent、程序员Agent、测试员Agent)来⾃动⽣成和测试代码;模拟⼀

个公司组织结构来完成商业策划。AutoGen、ChatDev等框架⽀持这类系统的构建。

探索与学习型Agent(Exploration & Learning Agents):

特点: 这类Agent不仅执⾏任务,还能在与环境的交互中主动学习新知识、新技能或优化⾃身策略,类似于强

化学习中的Agent概念。

⼯作⽅式: 可能包含更复杂的记忆和反思机制,能够根据成功或失败的经验调整未来的规划和⾏动。

例⼦: 能在未知软件环境中⾃主探索学习如何操作的Agent,或者在玩游戏时不断提升策略的Agent。

相关推荐
ID_180079054733 小时前
小红书笔记详情API接口基础解析:数据结构与调用方式
数据结构·数据库·笔记
北岛寒沫9 小时前
北京大学国家发展研究院 经济学原理课程笔记(第二十一课 金融学基础)
经验分享·笔记·学习
优雅的潮叭9 小时前
c++ 学习笔记之 malloc
c++·笔记·学习
李派森11 小时前
软考高项(信息系统项目管理师)—第4章 信息系统管理全解析
笔记·计算机网络
浩瀚地学12 小时前
【Java】常用API(二)
java·开发语言·经验分享·笔记·学习
今儿敲了吗15 小时前
C++概述
c++·笔记
知行力16 小时前
【GitHub每日速递 20260108】告别云服务弊端,Memos隐私至上自托管笔记服务来袭!
笔记·github
wdfk_prog16 小时前
[Linux]学习笔记系列 -- [fs]sysfs
linux·笔记·学习
im_AMBER17 小时前
Leetcode 98 从链表中移除在数组中存在的节点
c++·笔记·学习·算法·leetcode·链表
jamesge201017 小时前
kafka学习笔记
笔记·学习·kafka