八股-大语言模型基础

一、LLM的概念

  1. LLM 大型语言模型:Large Language Models
  2. 主流的开源模型体系都是基于 Transformer 架构:
    • Encoder 在抽取序列中某一个词的特征时能够看到整个序列中所有的信息,即上文和下文同时看到 ;而 Decoder 中因为有 mask 机制的存在,使得它在编码某一个词的特征时只能看到自身和它之前的文本信息
  3. Prefix/Causal LM:
    • Prefix LM 前缀语言模型:
      • Encoder和Decoder共享了同一个Transformer结构
      • Encoder:AE-自编码 前缀序列中任意两个token都相互可见Auto Encoding
      • Decoder:AR-自回归 待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token
    • Causal LM 因果语言模型:
      • Decoder:Auto Regressive 自回归
      • GPT
  4. 训练目标:最大化模型生成训练数据中观察到的文本序列的概率
    • 最大似然估计 MLE
  5. 涌现能力:模型在训练过程中能够生成出令人惊喜、创造性和新颖的内容或行为
  6. Decoder only结构
    • Encoder的双向注意力 存在低秩问题,削弱模型表达能力
    • 更好的Zero-Shot性能、更适合于大语料自监督学习
    • 效率:decoder-only支持一直复用KV-Cache,多轮对话更友好,每个Token的表示和之前输入有关
  7. LLMs复读机问题:依赖输入文本的复制
    • 解决: 多样性训练数据、引入噪声、温度参数调整、Beam搜索调整、后处理和过滤、人工干预
  8. Bert通用、LLaMA英文、ChatGLM中英文适用场景
  9. 让大模型处理更长的文本解决方法:
    • 分块、层次建模文本分为段落、句子或子句、部分生成模型生成文本的一部分、引入注意力机制、模型结构优化结构、参数
相关推荐
EasyGBS1 小时前
从“后厨黑箱”到“透明厨房”:国标GB28181视频平台EasyGBS平台AI视频分析如何守护舌尖上的安全
人工智能·安全·音视频
澹锦汐1 小时前
Serverless 云端架构:独立开发者的单兵作战服务器搭建路线图
人工智能
金融Tech趋势派1 小时前
2026企业微信SCRM与获客系统选型指南:功能矩阵、场景适配与避坑清单
大数据·人工智能·企业微信
ihsdfhs1 小时前
多模型不用来回切换?实测一款通用的 AI 聚合工具
人工智能
圣殿骑士-Khtangc1 小时前
大模型量化技术深度对比:GPTQ vs AWQ vs GGUF全解析
人工智能
电子科技圈2 小时前
CXL连接全面赋能AI与车载算力提升,SmartDV CXL全栈IP加速相关芯片设计
人工智能·网络协议·tcp/ip·机器学习·自动驾驶·边缘计算
深蓝电商API2 小时前
AI自动识别网页结构:零规则提取任意网站数据
人工智能·爬虫
下班走回家2 小时前
LoRA 微调:用少量数据定制自己的 AI 模型
人工智能
宸津-代码粉碎机2 小时前
Spring AI企业级Agent实战|多工具自动规划+并行调度落地,彻底解决复杂业务AI任务编排问题
java·大数据·人工智能·spring boot·python·spring