task3—大语言模型基础

复习：传统智能体能力来源于工程师显式的编程和知识构建，基于LLM驱动的智能体通过在海量数据上的预训练获得隐式的世界模型与强大的涌现能力。

3.1 语言模型与Transformer架构

语言模型是自然语言处理的核心。好的语言模型能够告诉我们什么样的句子是通顺的、自然的。语言模型的演进历程，包括以下几个阶段：

（1）统计语言模型
统计方法模型。核心思想是一个句子出现的概率，等于该句子中每个词出现的条件概率的连乘（概率的链式法则）。
N---gram模型（马尔可夫假设 (Markov Assumption) 。 其核心思想是：我们不必回溯一个词的全部历史，可以近似地认为，一个词的出现概率只与它前面有限的个词有关。基于这个假设建立的语言模型，我们称之为 N-gram 模型。这里的 "N" 代表我们考虑的上下文窗口大小，通过最大似然估计 (Maximum Likelihood Estimation,MLE)来计算。存在数据稀疏性、泛化能力差的缺点，
（2）神经网络语言模型与词嵌入。
前馈神经网络语言模型：构建语义空间、学习上下文到下一个词的映射 （通过余弦相似度来计算两个向量夹角的余弦值来衡量他们的相似性）。存在只考虑固定数量的前文。

（3）循环神经网络RNN与长短时记忆网络
循环神经网络，为网络增加记忆能力。存在长期依赖问题，梯度消失、梯度爆炸。

梯度消失：梯度理解为由输出端向前传递的修改信号，当序列很长时，从后向前传播需要经历多次连乘，这会导致梯度值趋向于0（梯度消失）、或变得很大（梯度爆炸）。

**长短时记忆网络（LSTM），引入细胞状态、门控机制。
细胞状态：**信息能直接在细胞状态上稳定传递，既不会被随便放大，也不会被轻易削弱。

遗忘门：决定 "哪些旧信息要从细胞状态上扔掉"（比如传悄悄话时，筛掉没用的废话）；
输入门：决定 "哪些新信息要加到细胞状态带上"（比如补充正确的内容）；

输出门：决定 "当前要用细胞状态上的哪些信息"（比如只取和当前任务相关的内容）。

必须按顺序处理数据，并行计算效率低下。
3.1.2 Transformer架构解析

自注意力机制允许在处理序列中的每一个词时，可以减负句子中的所有其他词，并为它分配权重。
查询（Query,Q）;键（key,K）;值（value,V）;

前馈神经网络：线性变换（升维) ReLU激活函数（筛选有用信息）线性变换（降维）

残差链接与层归一化（稳定器）
add:解决指令传不远的问题
norm：解决输入格式乱套的问题

位置编码的核心思想是，为输入序列中的每一个词元嵌入向量，都额外加上一个能代表其绝对位置和相对位置信息的"位置向量"。这个位置向量不是通过学习得到的，而是通过一个固定的数学公式直接计算得出。
3.1.3 Decoder-only
3.2 与大语言模型交互
Temperature、Top-k、Top-p 这三个参数的作用：模型生成文本时， 每写一个词（token），都要从 "候选词库" 里选一个 。词库里每个词都有一个 "推荐概率"（由 Softmax 计算），相当于 "这个词适合接在后面的推荐度"。这三个参数的本质，就是 调整候选词的 "筛选规则" 和 "概率权重" ，让模型选出来的词更符合场景需求。

Temperature 是 调整整个候选词库概率分布的全局开关， Temperature（T）的作用，是给每个词的概率 "做除法" 后再重新计算推荐度（对应公式 e^(z_i/T)）

T 变小（比如 0.1） ：高概率词的优势被极度放大，低概率词的机会几乎为 0。清单变得 "陡峭"------top1 的词（比如 "升高"）推荐度占 99%，其他词几乎没机会。
T 变大（比如 1.5） ：高低概率词的差距被大幅缩小 ，低概率词的机会变多。清单变得 "平坦"------"升高""超标""报警" 甚至 "波动" 的推荐度都差不多，冷门词也有了被选中的可能。

Top-k 是限制候选词数量的 "硬筛选规则"，

步骤很简单：
把所有候选词按概率从高到低排序；
只保留前 k 个词，组成 "热门候选清单"，剩下的词全部排除；
对这 k 个词的概率重新归一化（让它们的概率和为 1），再从中选一个。

Top-p：选词的 "概率达标清单"，Top-p 是动态调整候选词数量的 "软筛选规则" ，

步骤：
把所有候选词按概率从高到低排序；
从第一个词开始，累加它的概率，直到累加和≥p（比如 p=0.9）；
累加过程中包含的所有词，组成 "核心候选清单"，剩下的排除；
对清单内的词重新归一化，再选一个。
Temperature 调整全局概率分布 → Top-k 筛选前 k 个热门词 → Top-p 筛选累积概率≥p 的词。 通常 Top-k 和 Top-p 二选一：写精准报告用 Top-k（固定少数量），写自然文本用 Top-p（动态调整）

（2）零样本、单样本与少样本提示
零样本提示 (Zero-shot Prompting) 这指的是我们不给模型任何示例，直接让它根据指令完成任务。这得益于模型在海量数据上预训练后获得的强大泛化能力。

（4）基础提示技巧

角色扮演 (Role-playing) 通过赋予模型一个特定的角色，我们可以引导它的回答风格、语气和知识范围，使其输出更符合特定场景的需求。

（5）思维链
思维链 (Chain-of-Thought, CoT) 是一种强大的提示技巧，它通过引导模型"一步一步地思考"，提升了模型在复杂任务上的推理能力。

3.2.2 文本分词

将文本序列转换为数字序列的过程，就叫做分词 (Tokenization) 。分词器 (Tokenizer) 的作用，就是定义一套规则，将原始文本切分成一个个最小的单元，我们称之为词元 (Token) 。

顾词表大小和语义表达，现代大语言模型普遍采用子词分词 (Subword Tokenization) 算法。它的核心思想是：将常见的词（如 "agent"）保留为完整的词元，同时将不常见的词（如 "Tokenization"）拆分成多个有意义的子词片段（如 "Token" 和 "ization"）。这样既控制了词表的大小，又能让模型通过组合子词来理解和生成新词。

理解分词算法的细节并非目的，但作为智能体的开发者，理解分词器的实际影响是重要，这直接关系到智能体的性能、成本和稳定性：

上下文窗口限制 ：模型的上下文窗口（如 8K, 128K）是以 Token 数量计算的，而不是字符数或单词数。同样一段话，在不同语言（如中英文）或不同分词器下，Token 数量可能相差巨大。精确管理输入长度、避免超出上下文限制是构建长时记忆智能体的基础。
API 成本：大多数模型 API 都是按 Token 数量计费的。了解你的文本会被如何分词，是预估和控制智能体运行成本的关键一步。
模型表现的异常 ：有时模型的奇怪表现根源在于分词。例如，模型可能很擅长计算 2 + 2，但对于 2+2（没有空格）就可能出错，因为后者可能被分词器视为一个独立的、不常见的词元。同样，一个词因为首字母大小写不同，也可能被切分成完全不同的 Token 序列，从而影响模型的理解。在设计提示词和解析模型输出时，考虑到这些"陷阱"有助于提升智能体的鲁棒性。

3.2.4.1 模型选型的关键考量
性能与能力：这是最核心的考量。不同的模型擅长的任务不同，有的长于逻辑推理和代码生成，有的则在创意写作或多语言翻译上更胜一筹。您可以参考一些公开的基准测试排行榜（如 LMSys Chatbot Arena Leaderboard）来评估模型的综合能力。
成本：对于闭源模型，成本主要体现在 API 调用费用，通常按 Token 数量计费。对于开源模型，成本则体现在本地部署所需的硬件（GPU、内存）和运维上。需要根据应用的预期使用量和预算做出选择。
速度（延迟）：对于需要实时交互的智能体（如客服、游戏 NPC），模型的响应速度至关重要。一些轻量级或经过优化的模型（如 GPT-3.5 Turbo, Claude 3.5 Sonnet）在延迟上表现更优。
上下文窗口：模型能一次性处理的 Token 数量上限。对于需要理解长文档、分析代码库或维持长期对话记忆的智能体，选择一个拥有较大上下文窗口（如 128K Token 或更高）的模型是必要的。
部署方式：使用 API 的方式最简单便捷，但数据需要发送给第三方，且受限于服务商的条款。本地部署则能确保数据隐私和最高程度的自主可控，但对技术和硬件要求更高。
生态与工具链：一个模型的流行程度也决定了其周边生态的成熟度。主流模型通常拥有更丰富的社区支持、教程、预训练模型、微调工具和兼容的开发框架（如 LangChain, LlamaIndex, Hugging Face Transformers），这能极大地加速开发进程，降低开发难度。选择一个拥有活跃社区和完善工具链的模型，可以在遇到问题时更容易找到解决方案和资源。
可微调性与定制化：对于需要处理特定领域数据或执行特定任务的智能体，模型的微调能力至关重要。一些模型提供了便捷的微调接口和工具，允许开发者使用自己的数据集对模型进行定制化训练，从而显著提升模型在特定场景下的性能和准确性。开源模型在这方面通常提供更大的灵活性。
安全性与伦理：随着大语言模型的广泛应用，其潜在的安全风险和伦理问题也日益凸显。选择模型时，需要考虑其在偏见、毒性、幻觉等方面的表现，以及服务商或开源社区在模型安全和负责任AI方面的投入。对于面向公众或涉及敏感信息的应用，模型的安全性和伦理合规性是不可忽视的考量。

task3—大语言模型基础

3.1 语言模型与Transformer架构

输出门 ：决定 "当前要用细胞状态上的哪些信息"（比如只取和当前任务相关的内容）。

输出门：决定 "当前要用细胞状态上的哪些信息"（比如只取和当前任务相关的内容）。