Day25 - 大模型的三大架构

CSBLOG2024-12-16 19:16

大模型

大语言模型
Large Language Models（LLMs）
参数量：B Billion 十亿
- 类脑设计：参数看作脑细胞，脑细胞越多，越聪明
- 数学视角：y=F(x)，参数看作自变量，自变量越多，函数越复杂，越能映射复杂的关系
训练平台：
- 工程上：不可能脱离GPU，而且需要高性能GPU
训练数据：
- 预训练：18T语料
  - 18T表示18万亿，一本红楼梦约50万token，18T语料相当于3600万本红楼梦
训练时长
- 原来：3 ~ 6个月
- 现在：1 ~ 2个月

质的变化

本质：天下大势，分久必合，合久必分

小模型时代：

单一职责原则
- 一个场景：
  - 单独一个模型
  - 单独一个数据集
  - 单独训练
  - 单独评估
  - 单独部署
  - 单独维护
一个系统：
- 挂了很多微服务
- 挂了很多的小模型

大模型时代：AGI（Artificial General Intelligence）

大一统
- 一个系统：
  - 挂了一个大模型
    - 通过指令遵循，可以同时解决不同的问题
  - 多模态大模型

生成式人工智能 VS 判别式人工智能

Generative AI

创作性

如何进行人机协同是下一步的重点

具身机器人

大语言模型的架构

架构一：Encoder - Decoder架构
- 直接把 transformer 变厚即可
- T5：Text to Text transfer Transformer
- Google
- 最正确、最正统、最没有歧义的路线，但死的最快。
  - 革命性的东西往往不按常理出牌，transformer的诞生代替了Seq2Seq，而Seq2Seq是全世界公认的生成式算法。
- 首次提出：指令编码的基础理念
架构二：Decoder - Only 架构
- 把模型的复杂度降低
- 除了GLM之外，这种架构是唯一的
  - LLaMA架构
    - LLaMA2
  - 千问系列
  - 豆包
  - 星火
  - kimi
架构三：GLM（Prefix-Encoder-Only ）架构
- 融合 BERT 和 GPT 的优势，提出了一种混合结构
- 理解上文：双向编码器的优势（BERT）
- 生成下文：强大的自回归能力（GPT）

上一篇：MySQL 主从复制与高可用架构

下一篇：基于双目视差的3D立体视觉原理及其应用

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03Cursor 快速入门指南：从安装到核心功能 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）05【踩坑笔记】50系显卡适配的 PyTorch 安装 06Claude Code VSCode集成开发指南：AI编程助手完整配置 0720个国内外主流AI绘画工具大汇总（最新免费可用~）08蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 09UnityHub Validation Failed下载编辑器错误，添加模块报错的解决方案 10突破百度网盘的下载限速，两种方法教会你【超详细】