【DataWhale】快乐学习大模型 | 202507，Task08笔记

飞速移动的代码菌2025-07-29 23:37

其实个人感觉Encoder-Decoder是优于单纯Decoder的，可能是训练数据、参数量足够大力大砖飞了。

从GPT1->GPT3的过程中，参数量逐步上升，训练数据逐步增多，效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要，从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。

回过头来Decoder的本质根据之前的token来预测下一个token。

除了GPT之外，llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

现有大模型的优化点

1、预测一个token太慢，直接预测一整块的内容（已有相关研究，也有用文生图diffusion的那种直接预测所有再优化的）

2、输入token太多，每个都要用到相关的太占用内存（也有相关研究，可以更关注更有效地token）

3、算法和硬件的协同，如果flash attention等来优化计算，本质是模型运算速度主要看访存和计算

4、工程上的优化，如果kv-cache等，还有最近kimi2的1T参数的MoE模型，也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。