【DataWhale】快乐学习大模型 | 202507,Task08笔记

前言

其实个人感觉Encoder-Decoder是优于单纯Decoder的,可能是训练数据、参数量足够大力大砖飞了。

Decoder-Only PLM

从GPT1->GPT3的过程中,参数量逐步上升,训练数据逐步增多,效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要,从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。

回过头来Decoder的本质根据之前的token来预测下一个token。

除了GPT之外,llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

额外思考

现有大模型的优化点

1、预测一个token太慢,直接预测一整块的内容(已有相关研究,也有用文生图diffusion的那种直接预测所有再优化的)

2、输入token太多,每个都要用到相关的太占用内存(也有相关研究,可以更关注更有效地token)

3、算法和硬件的协同,如果flash attention等来优化计算,本质是模型运算速度主要看访存和计算

4、工程上的优化,如果kv-cache等,还有最近kimi2的1T参数的MoE模型,也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。

参考资料

1、happy-llm 3.3 Decoder-Only PLM

2、仅需24GB显存!普通人如何在笔记本本地运行1T参数Kimi K2大模型?

相关推荐
xuhaoyu_cpp_java几秒前
项目学习(三)代码生成器
java·经验分享·笔记·学习
my_daling16 分钟前
松下伺服驱动器参数保存流程(已在松下A5上验证)
笔记
worilb33 分钟前
Spring Cloud 学习与实践(8):Spring Cloud Gateway 统一入口、路由转发与双重跨域故障演练
学习·spring·spring cloud
初圣魔门首席弟子33 分钟前
学习工作方法论与任务执行计划
学习
智者知已应修善业1 小时前
【51单片机初始化D5-D8亮,每按键按下D1到D4全亮,再按下恢复,如此循环】2024-3-26
c++·经验分享·笔记·算法·51单片机
skywalk81631 小时前
记录段言的开发过程
开发语言·学习·编程
知识分享小能手1 小时前
Hadoop学习教程,从入门到精通, MapReduce分布式计算框架 — 完整知识点与代码案例(4)
hadoop·学习·mapreduce
YM52e2 小时前
鸿蒙HarmonyOS ArkTS 实战:教师座椅出入记录 APP 从零到一
学习·华为·harmonyos·鸿蒙系统
juesdo2 小时前
青岑CTF之 EZPHP系列
笔记·web安全·php
踏着七彩祥云的小丑2 小时前
嵌入式测试第 32 天:升级测试:固件OTA升级、断点续传、回滚测试
单片机·嵌入式硬件·学习