Day25 - 大模型的三大架构

大模型

  • 大语言模型
  • Large Language Models(LLMs)
  • 参数量:B Billion 十亿
    • 类脑设计:参数看作脑细胞,脑细胞越多,越聪明
    • 数学视角:y=F(x),参数看作自变量,自变量越多,函数越复杂,越能映射复杂的关系
  • 训练平台:
    • 工程上:不可能脱离GPU,而且需要高性能GPU
  • 训练数据:
    • 预训练:18T语料
      • 18T表示18万亿,一本红楼梦约50万token,18T语料相当于3600万本红楼梦
  • 训练时长
    • 原来:3 ~ 6个月
    • 现在:1 ~ 2个月

质的变化

本质:天下大势,分久必合,合久必分

小模型时代:

  • 单一职责原则
    • 一个场景:
      • 单独一个模型
      • 单独一个数据集
      • 单独训练
      • 单独评估
      • 单独部署
      • 单独维护
  • 一个系统:
    • 挂了很多微服务
    • 挂了很多的小模型

大模型时代:AGI(Artificial General Intelligence)

  • 大一统
    • 一个系统:
      • 挂了一个大模型
        • 通过指令遵循,可以同时解决不同的问题
      • 多模态大模型

生成式人工智能 VS 判别式人工智能

Generative AI

创作性

如何进行人机协同是下一步的重点

具身机器人

大语言模型的架构

  • 架构一:Encoder - Decoder架构
    • 直接把 transformer 变厚即可
    • T5:Text to Text transfer Transformer
    • Google
    • 最正确、最正统、最没有歧义的路线,但死的最快。
      • 革命性的东西往往不按常理出牌,transformer的诞生代替了Seq2Seq,而Seq2Seq是全世界公认的生成式算法。
    • 首次提出:指令编码的基础理念
  • 架构二:Decoder - Only 架构
    • 把模型的复杂度降低
    • 除了GLM之外,这种架构是唯一的
      • LLaMA架构
        • LLaMA2
      • 千问系列
      • 豆包
      • 星火
      • kimi
  • 架构三:GLM(Prefix-Encoder-Only )架构
    • 融合 BERT 和 GPT 的优势,提出了一种混合结构
    • 理解上文:双向编码器的优势(BERT)
    • 生成下文:强大的自回归能力(GPT)
相关推荐
qq_416276422 小时前
LOFAR物理频谱特征提取及实现
人工智能
Python图像识别3 小时前
71_基于深度学习的布料瑕疵检测识别系统(yolo11、yolov8、yolov5+UI界面+Python项目源码+模型+标注好的数据集)
python·深度学习·yolo
余俊晖3 小时前
如何构造一个文档解析的多模态大模型?MinerU2.5架构、数据、训练方法
人工智能·文档解析
Akamai中国4 小时前
Linebreak赋能实时化企业转型:专业系统集成商携手Akamai以实时智能革新企业运营
人工智能·云计算·云服务
LiJieNiub5 小时前
读懂目标检测:从基础概念到主流算法
人工智能·计算机视觉·目标跟踪
哥布林学者6 小时前
吴恩达深度学习课程一:神经网络和深度学习 第三周:浅层神经网络(二)
深度学习·ai
weixin_519535776 小时前
从ChatGPT到新质生产力:一份数据驱动的AI研究方向指南
人工智能·深度学习·机器学习·ai·chatgpt·数据分析·aigc
爱喝白开水a6 小时前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
takashi_void6 小时前
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程
linux·人工智能·windows·macos·语言模型·nlp
OpenCSG6 小时前
【活动预告】2025斗拱开发者大会,共探支付与AI未来
人工智能·ai·开源·大模型·支付安全