大语言模型

对人类的语言建立数学模型，语言大模型的发展是 "数据、算力、算法" 协同进步的结果，从统计模型到千亿参数大模型。

第一阶段(2000s-2010s）统计语言模型（Statistical Language Model，SLM）基于马尔可夫假设建立词语测模型，根据最近的上下文预测下一个词，

第二阶段(2010-2017）神经网络语言模型（Neural Language Model，NLM）把输入的文本数据空间投射到高维的语义空间中并进行学习。通过不断地更新神经网络模型参数，NLM 的神经网络逐渐学会了文本数据的语义并能够生成连贯自然、语义准确的文本。具有更好的泛化能力和适应性。相对依赖更大数据和人工标注。2010 年后，Word2Vec（2013）通过浅层神经网络生成词嵌入（Word Embedding），首次实现用低维向量编码词语语义（如 "国王 - 男人 + 女人≈女王"），为后续模型奠定基础

第三阶段是预训练语言模型（Pre-trained Language Model，PLM）

使用大量文本数据来训练的自然语言处理模型。相对 NLM 来说，PLM 使用无监督学习方法，因此不需要先标注数据或注明文本类型等信息，

2017 年 Google 提出Transformer 架构，用 "自注意力机制" 替代 RNN 的循环结构，能并行处理文本序列并捕捉长距离依赖，成为现代语言大模型的 "通用骨架"。

BERT（2018，Google）：基于 Transformer 的 Encoder 结构，通过 "掩码语言建模"（MLM）学习双向上下文，在问答、分类等理解任务中大幅超越传统方法。
GPT-1（2018，OpenAI）：基于 Transformer 的 Decoder 结构，采用 "自回归语言建模"（预测下一个词），首次展示了生成连贯文本的能力，GPT-1 约 1.17 亿

第三阶段是大语言模型（Large Language Model）

你可以将现在的 LLM 理解为一个训练数据特别大的 PLM，比如 GPT-2 只有 1.5B 参数，GPT-3 则到了惊人 175B。

GPT-3（2020，OpenAI）：1750 亿参数，无需微调即可通过 "提示词（Prompt）" 完成多种任务（零样本 / 少样本学习），如写代码、作诗、逻辑推理，展现出 "涌现能力"（参数量达到临界点后出现的新能力）。
LLaMA（2023，Meta）：开源模型（7B-65B 参数），性能接近闭源大模型，推动学术界和企业级应用的普及。

Agent（智能体）

本质是 "感知 - 决策 - 执行" 的闭环能力，比如智能编程助手（代码补全、评审代码、Prompt）、字节扣子（扣子）

1. 感知模块（Perception Module）

功能：将外部环境的原始数据（文本、图像、语音、传感器数据等）转化为 Agent 可理解的结构化信息。
技术实现 ：
- 对于文本环境：依赖 NLP 技术（如分词、实体识别、语义理解，通常基于预训练语言模型如 BERT、LLaMA）。
- 对于多模态环境：结合计算机视觉（CV）处理图像 / 视频、语音识别（ASR）处理音频，通过多模态模型（如 CLIP、GPT-4V）统一编码。
- 对于物理 / 虚拟环境：通过传感器接口（如机器人的激光雷达、游戏的 API 数据）获取环境状态（位置、属性、动态变化）。
关键目标：准确提取环境中的关键信息（如用户需求、物体状态、规则约束），减少噪声干扰。

2. 记忆模块（Memory System）

功能：存储 Agent 的历史经验、环境信息、任务知识，支持决策时的信息检索和推理。
分类：
- 短期记忆（Working Memory）：临时存储当前任务的上下文信息（如对话历史、步骤进度），通常容量有限，随任务结束更新。
- 长期记忆（Long-Term Memory）：存储持久化知识，包括领域常识、历史交互记录、成功 / 失败案例等，可通过数据库（如向量数据库、知识图谱）或文件系统实现。
- ** episodic Memory**：记录 Agent 的 "经历"（如 "2023 年 10 月完成用户旅行规划任务的步骤"），支持基于经验的类比推理。
技术趋势：结合向量嵌入（Embedding）将记忆内容转化为向量，通过相似度检索快速召回相关信息（如用 FAISS、Milvus 优化记忆检索效率）。

3. 决策与规划模块（Reasoning & Planning）

功能：基于感知信息和记忆内容，结合目标生成具体的行动策略或步骤序列。
核心能力 ：
- 推理（Reasoning）：通过逻辑分析、因果推断理解目标与环境的关系（如 "用户说'天气冷'可能需要推荐保暖物品"）。
- 规划（Planning） ：将复杂目标拆解为可执行的子任务（如 "用户要举办派对"→拆解为 "确定人数→选场地→订食材→发邀请"），常用算法包括：
  - 符号主义规划：如基于规则的决策树、专家系统（适用于规则明确的场景）。
  - 强化学习规划：如马尔可夫决策过程（MDP）、深度强化学习（DRL）中的 PPO、DQN（适用于动态环境下的试错优化）。
  - 大模型驱动规划：利用 LLM 的上下文理解和逻辑链（Chain-of-Thought）能力生成步骤（如 GPT-4 的 "思维链推理"）。
关键挑战：处理不确定性环境（如用户需求模糊、突发变化），平衡规划的效率与准确性。

4. 行动执行模块（Action Execution）

功能：将决策模块生成的抽象策略转化为具体的操作，与环境或用户交互。
输出形式 ：
- 文本交互：生成自然语言回复（如客服 Agent 的回答）、指令文本（如 "发送邮件给用户"）。
- 物理操作：控制硬件设备（如机器人移动、机械臂抓取），通过 API 或控制协议（如 ROS）实现。
- 虚拟操作：调用工具或接口（如调用搜索引擎查天气、调用支付 API 完成订单）。
技术要点：确保行动的准确性（如 API 参数正确）、合规性（如符合用户隐私规则），并支持行动结果的反馈收集。