【DataWhale】快乐学习大模型 | 202507,Task08笔记

前言

其实个人感觉Encoder-Decoder是优于单纯Decoder的,可能是训练数据、参数量足够大力大砖飞了。

Decoder-Only PLM

从GPT1->GPT3的过程中,参数量逐步上升,训练数据逐步增多,效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要,从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。

回过头来Decoder的本质根据之前的token来预测下一个token。

除了GPT之外,llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

额外思考

现有大模型的优化点

1、预测一个token太慢,直接预测一整块的内容(已有相关研究,也有用文生图diffusion的那种直接预测所有再优化的)

2、输入token太多,每个都要用到相关的太占用内存(也有相关研究,可以更关注更有效地token)

3、算法和硬件的协同,如果flash attention等来优化计算,本质是模型运算速度主要看访存和计算

4、工程上的优化,如果kv-cache等,还有最近kimi2的1T参数的MoE模型,也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。

参考资料

1、happy-llm 3.3 Decoder-Only PLM

2、仅需24GB显存!普通人如何在笔记本本地运行1T参数Kimi K2大模型?

相关推荐
~无忧花开~26 分钟前
JavaScript学习笔记(十五):ES6模板字符串使用指南
开发语言·前端·javascript·vue.js·学习·es6·js
哈基鑫1 小时前
深度学习之图像分类笔记
笔记·深度学习·分类
润 下2 小时前
C语言——深入理解函数声明定义和调用访问
c语言·开发语言·经验分享·笔记·程序人生·其他
拾贰_C2 小时前
【pycharm---pytorch】pycharm配置以及pytorch学习
pytorch·学习·pycharm
向阳花开_miemie3 小时前
Android音频学习(二十一)——ALSA简介
学习·音视频
come112343 小时前
ptyhon 基础语法学习(对比php)
android·学习
倔强菜鸟3 小时前
2025.8.10-学习C++(一)
开发语言·c++·学习
蓝桉~MLGT4 小时前
Python学习历程——组织结构(包含for、if、while等等)
开发语言·python·学习
He BianGu4 小时前
【笔记】介绍 WPF XAML 中 Binding 的 StringFormat详细功能
笔记·wpf
西猫雷婶4 小时前
pytorch基本运算-torch.normal()函数生成的随机数据添加噪声
人工智能·pytorch·python·深度学习·学习·线性代数·机器学习