大模型
- 大语言模型
- Large Language Models(LLMs)
- 参数量:B Billion 十亿
- 类脑设计:参数看作脑细胞,脑细胞越多,越聪明
- 数学视角:y=F(x),参数看作自变量,自变量越多,函数越复杂,越能映射复杂的关系
- 训练平台:
- 工程上:不可能脱离GPU,而且需要高性能GPU
- 训练数据:
- 预训练:18T语料
- 18T表示18万亿,一本红楼梦约50万token,18T语料相当于3600万本红楼梦
- 预训练:18T语料
- 训练时长
- 原来:3 ~ 6个月
- 现在:1 ~ 2个月
质的变化
本质:天下大势,分久必合,合久必分
小模型时代:
- 单一职责原则
- 一个场景:
- 单独一个模型
- 单独一个数据集
- 单独训练
- 单独评估
- 单独部署
- 单独维护
- 一个场景:
- 一个系统:
- 挂了很多微服务
- 挂了很多的小模型
大模型时代:AGI(Artificial General Intelligence)
- 大一统
- 一个系统:
- 挂了一个大模型
- 通过指令遵循,可以同时解决不同的问题
- 多模态大模型
- 挂了一个大模型
- 一个系统:
生成式人工智能 VS 判别式人工智能
Generative AI
创作性
如何进行人机协同是下一步的重点
具身机器人
大语言模型的架构
- 架构一:Encoder - Decoder架构
- 直接把 transformer 变厚即可
- T5:Text to Text transfer Transformer
- 最正确、最正统、最没有歧义的路线,但死的最快。
- 革命性的东西往往不按常理出牌,transformer的诞生代替了Seq2Seq,而Seq2Seq是全世界公认的生成式算法。
- 首次提出:指令编码的基础理念
- 架构二:Decoder - Only 架构
- 把模型的复杂度降低
- 除了GLM之外,这种架构是唯一的
- LLaMA架构
- LLaMA2
- 千问系列
- 豆包
- 星火
- kimi
- LLaMA架构
- 架构三:GLM(Prefix-Encoder-Only )架构
- 融合 BERT 和 GPT 的优势,提出了一种混合结构
- 理解上文:双向编码器的优势(BERT)
- 生成下文:强大的自回归能力(GPT)