八股-大语言模型基础

一、LLM的概念

  1. LLM 大型语言模型:Large Language Models
  2. 主流的开源模型体系都是基于 Transformer 架构:
    • Encoder 在抽取序列中某一个词的特征时能够看到整个序列中所有的信息,即上文和下文同时看到 ;而 Decoder 中因为有 mask 机制的存在,使得它在编码某一个词的特征时只能看到自身和它之前的文本信息
  3. Prefix/Causal LM:
    • Prefix LM 前缀语言模型:
      • Encoder和Decoder共享了同一个Transformer结构
      • Encoder:AE-自编码 前缀序列中任意两个token都相互可见Auto Encoding
      • Decoder:AR-自回归 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token
    • Causal LM 因果语言模型:
      • Decoder:Auto Regressive 自回归
      • GPT
  4. 训练目标:最大化模型生成训练数据中观察到的文本序列的概率
    • 最大似然估计 MLE
  5. 涌现能力:模型在训练过程中能够生成出令人惊喜、创造性和新颖的内容或行为
  6. Decoder only结构
    • Encoder的双向注意力 存在低秩问题,削弱模型表达能力
    • 更好的Zero-Shot性能、更适合于大语料自监督学习
    • 效率:decoder-only支持一直复用KV-Cache,多轮对话更友好,每个Token的表示和之前输入有关
  7. LLMs复读机问题:依赖输入文本的复制
    • 解决: 多样性训练数据、引入噪声、温度参数调整、Beam搜索调整、后处理和过滤、人工干预
  8. Bert通用、LLaMA英文、ChatGLM中英文适用场景
  9. 让大模型处理更长的文本解决方法:
    • 分块、层次建模文本分为段落、句子或子句、部分生成模型生成文本的一部分、引入注意力机制、模型结构优化结构、参数
相关推荐
IT_陈寒13 分钟前
Python里这个赋值坑,连老司机都能翻车
前端·人工智能·后端
Shockang10 小时前
AI 设计工作流全景拆解:Figma MCP / Claude Design / Codex / Google Stitch
人工智能
To_OC11 小时前
数据集划分不是随便切:手把手切分大众点评情感数据集
人工智能·llm·agent
冬奇Lab12 小时前
每日一个开源项目(第142篇):android/skills - Google 官方 Android 开发 AI Skill 库
人工智能·开源·资讯
冬奇Lab12 小时前
Skill 系列(06):Skill 工程化与治理——路由准确率 38%、压缩节省 76%
人工智能·开源·agent
IT_陈寒14 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷15 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo15 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo92015 小时前
Tool Use 背后的技术逻辑
人工智能