5.深入了解大模型基础结构

文章目录

1.大模型基石Transformer架构

翻译背景

  • 原始语句 杰瑞将要访问中国
  • 机器翻译 Jerry visits China
  • 优秀翻译
    • Jerry is going to visit China
    • Jerry will visit China

翻译模型早期架构

  • decoder 将Jerry will visit China每个单词转换成语义向量然后交由神经网络处理最后交由decoder进行解码

RNN-Seq2Seq(sequence to sequence )

  • c:固定长度的语向量

Transformer

Encoder:对输入的源语言序列进行编码,提取其语义信息

Decoder:生成目标语言序列,利用Encoder提供的上下文信息以及已经生成的目标语言部分序列来逐步生成翻译结果。

1.Transformer模型工作流程-Step 1

2.Transformer模型工作流程-Step 2

将第一步得到的单词表示向量矩阵传入Encoder,经过Encoder后可以得到句子所有单词的编码信息矩阵c(attention自注意力机制)

3.Transformer工作流程-Step 3

4.Transformer模型结构

  • Encoder包含一个Multi-Head Attention

  • Decoder包含两个Multi-Head Attention,其中一个用到Masked

  • Multi-Head Attention上方还包含一个Add & Norm层

  • Add表示残差连接,用于防止网络退化

  • Norm表示Layer Normalization, 用于对每一层的激活值进行归一化

  • 一个Multi-Head Attention由多个Self-Attention组成

Transformer模型结构-Self-Attention

  • Self-Attention机制帮助模型对输入序列中的不同位置建立关联
  • Multi-Head Attention多头注意力机制允许模型同时关注不同位置的信息。

Transformer-优点

  • 放弃RNN循环层,摒弃RNN隐状态。
  • 解决RNN长距离依赖,完全使用注意力机制捕捉输入和输出之间的关系。
  • 显著提高并行化和速度

2.通用大模型和金融大模型介绍

1.通用大模型代表-GPT

  • GPT-1 2018·1.17亿参数·Transformer模型首次应用
  • GPT-2 2019·15亿参数·文本能力显著提高
  • GPT-3 2020·1750亿参数·执行复杂任务·代码编写·多轮对话
  • GPT-4 2023·1.8万亿参数·支持多模态-文本和图像·进一步提升理解和生成能力

2.开源大模型代表-LLaMA

  • LLaMA1 2023年2月 7B-65B, 在小模型上表现优异
  • LLaMA2 2023年7月 训练数据增加40% ,可供商业使用
  • LLaMA3 2024年4月 80亿-4050亿参数 性能接近与GPT-4 ,推理、编程代码生成和指令执行方面进行显著优化
  • LLaMA3.1
    2024年7月
    多语言支持,上下文窗口提升
    ·

3.国产开源大模型代表-DeepSeek

  • DeepSeek LLM 2024年1月 包含670亿参数,从零开始在2万亿,token上进行训练
  • DeepSeekV2 2024年5月 采用Mixture-of-Experts (MoE)架构,实现了显著的性能提升
  • DeepSeekV3 2024年12月 显著提升了知识类任务和生成速度
  • DeepSeekR1 2025年1月 采用强化学习技术提升模型推理能力

4.金融大模型-FinGPT

FINGPT

https://github.com/AI4Finance-Foundation/FinGPT

金融数据高度动态变化,FinGPT使用微调技术低成本纳入新数据

使用RLHF人类强化学习技术学习个人偏好(风险规避水平,投资习惯,个性化机器人顾问)

  • FinGPT V1 2023年6月 基于ChatGLM2,Finetuning LoRA
  • FinGPT V3.2 2023年10月 基于LLama2-7b
  • FinGPT V3.3 2023年10月 基于LLama2-13b

3.总结与思考

  1. CNN和RNN在翻译场景上存在什么问题?
  2. Transformer的核心组件有哪一些?
  3. 为何Transformer能解决长距离的问题?
  4. Transformer为何能加速模型训练?
相关推荐
熊猫钓鱼>_>27 分钟前
从“流程固化“到“意图驱动“:大模型调智能体调Skill架构深度解析
ai·架构·大模型·llm·agent·skill·openclaw
Baihai_IDP4 小时前
微软多模态推理模型 Phi-4-reasoning-vision 训练经验分享
人工智能·面试·llm
Pitayafruit5 小时前
Windows 也能跑 Hermes Agent!完整安装教程 + 飞书接入,全程避坑
人工智能·llm·agent
深度学习机器5 小时前
一文快速看懂Hermes Agent
llm·agent
Cosolar1 天前
LangChain实战:基于Streamlit+ LangChain + Qwen 快速构建一个多会话AI聊天页面
人工智能·llm·agent
云端FFF1 天前
LLM-based Agent 技术演进 —— 从 Prompt Engineering 到 Harness
llm·agent·skill·ai engineering
小手智联老徐1 天前
OpenClaw 三小时连更三个版本
llm·ai编程·openclaw
得物技术2 天前
财务数仓 Claude AI Coding 应用实战|得物技术
大数据·llm·aiops
jiguanghover2 天前
Playwright_Langgraph
llm
@atweiwei2 天前
用 Rust 构建 LLM 应用的高性能框架
开发语言·后端·ai·rust·langchain·llm