大语言模型
对人类的语言建立数学模型,语言大模型的发展是 "数据、算力、算法" 协同进步的结果,从统计模型到千亿参数大模型。
第一阶段(2000s-2010s)统计语言模型(Statistical Language Model,SLM)基于马尔可夫假设建立词语测模型,根据最近的上下文预测下一个词,
第二阶段(2010-2017)神经网络语言模型(Neural Language Model,NLM)把输入的文本数据空间投射到高维的语义空间中并进行学习。通过不断地更新神经网络模型参数,NLM 的神经网络逐渐学会了文本数据的语义并能够生成连贯自然、语义准确的文本。具有更好的泛化能力和适应性。相对依赖更大数据和人工标注。2010 年后,Word2Vec(2013)通过浅层神经网络生成词嵌入(Word Embedding),首次实现用低维向量编码词语语义(如 "国王 - 男人 + 女人≈女王"),为后续模型奠定基础
第三阶段是预训练语言模型(Pre-trained Language Model,PLM)
使用大量文本数据来训练的自然语言处理模型。相对 NLM 来说,PLM 使用无监督学习方法,因此不需要先标注数据或注明文本类型等信息,
2017 年 Google 提出Transformer 架构,用 "自注意力机制" 替代 RNN 的循环结构,能并行处理文本序列并捕捉长距离依赖,成为现代语言大模型的 "通用骨架"。
- BERT(2018,Google):基于 Transformer 的 Encoder 结构,通过 "掩码语言建模"(MLM)学习双向上下文,在问答、分类等理解任务中大幅超越传统方法。
- GPT-1(2018,OpenAI):基于 Transformer 的 Decoder 结构,采用 "自回归语言建模"(预测下一个词),首次展示了生成连贯文本的能力,GPT-1 约 1.17 亿
第三阶段是大语言模型(Large Language Model)
你可以将现在的 LLM 理解为一个训练数据特别大的 PLM,比如 GPT-2 只有 1.5B 参数,GPT-3 则到了惊人 175B。
- GPT-3(2020,OpenAI):1750 亿参数,无需微调即可通过 "提示词(Prompt)" 完成多种任务(零样本 / 少样本学习),如写代码、作诗、逻辑推理,展现出 "涌现能力"(参数量达到临界点后出现的新能力)。
- LLaMA(2023,Meta):开源模型(7B-65B 参数),性能接近闭源大模型,推动学术界和企业级应用的普及。
Agent(智能体)
本质是 "感知 - 决策 - 执行" 的闭环能力,比如智能编程助手(代码补全、评审代码、Prompt)、字节扣子(扣子)
1. 感知模块(Perception Module)
- 功能:将外部环境的原始数据(文本、图像、语音、传感器数据等)转化为 Agent 可理解的结构化信息。
- 技术实现 :
- 对于文本环境:依赖 NLP 技术(如分词、实体识别、语义理解,通常基于预训练语言模型如 BERT、LLaMA)。
- 对于多模态环境:结合计算机视觉(CV)处理图像 / 视频、语音识别(ASR)处理音频,通过多模态模型(如 CLIP、GPT-4V)统一编码。
- 对于物理 / 虚拟环境:通过传感器接口(如机器人的激光雷达、游戏的 API 数据)获取环境状态(位置、属性、动态变化)。
- 关键目标:准确提取环境中的关键信息(如用户需求、物体状态、规则约束),减少噪声干扰。
2. 记忆模块(Memory System)
- 功能:存储 Agent 的历史经验、环境信息、任务知识,支持决策时的信息检索和推理。
- 分类 :
- 短期记忆(Working Memory):临时存储当前任务的上下文信息(如对话历史、步骤进度),通常容量有限,随任务结束更新。
- 长期记忆(Long-Term Memory):存储持久化知识,包括领域常识、历史交互记录、成功 / 失败案例等,可通过数据库(如向量数据库、知识图谱)或文件系统实现。
- ** episodic Memory**:记录 Agent 的 "经历"(如 "2023 年 10 月完成用户旅行规划任务的步骤"),支持基于经验的类比推理。
- 技术趋势:结合向量嵌入(Embedding)将记忆内容转化为向量,通过相似度检索快速召回相关信息(如用 FAISS、Milvus 优化记忆检索效率)。
3. 决策与规划模块(Reasoning & Planning)
- 功能:基于感知信息和记忆内容,结合目标生成具体的行动策略或步骤序列。
- 核心能力 :
- 推理(Reasoning):通过逻辑分析、因果推断理解目标与环境的关系(如 "用户说'天气冷'可能需要推荐保暖物品")。
- 规划(Planning) :将复杂目标拆解为可执行的子任务(如 "用户要举办派对"→拆解为 "确定人数→选场地→订食材→发邀请"),常用算法包括:
- 符号主义规划:如基于规则的决策树、专家系统(适用于规则明确的场景)。
- 强化学习规划:如马尔可夫决策过程(MDP)、深度强化学习(DRL)中的 PPO、DQN(适用于动态环境下的试错优化)。
- 大模型驱动规划:利用 LLM 的上下文理解和逻辑链(Chain-of-Thought)能力生成步骤(如 GPT-4 的 "思维链推理")。
- 关键挑战:处理不确定性环境(如用户需求模糊、突发变化),平衡规划的效率与准确性。
4. 行动执行模块(Action Execution)
- 功能:将决策模块生成的抽象策略转化为具体的操作,与环境或用户交互。
- 输出形式 :
- 文本交互:生成自然语言回复(如客服 Agent 的回答)、指令文本(如 "发送邮件给用户")。
- 物理操作:控制硬件设备(如机器人移动、机械臂抓取),通过 API 或控制协议(如 ROS)实现。
- 虚拟操作:调用工具或接口(如调用搜索引擎查天气、调用支付 API 完成订单)。
- 技术要点:确保行动的准确性(如 API 参数正确)、合规性(如符合用户隐私规则),并支持行动结果的反馈收集。