【DataWhale】快乐学习大模型 | 202507,Task08笔记

前言

其实个人感觉Encoder-Decoder是优于单纯Decoder的,可能是训练数据、参数量足够大力大砖飞了。

Decoder-Only PLM

从GPT1->GPT3的过程中,参数量逐步上升,训练数据逐步增多,效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要,从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。

回过头来Decoder的本质根据之前的token来预测下一个token。

除了GPT之外,llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

额外思考

现有大模型的优化点

1、预测一个token太慢,直接预测一整块的内容(已有相关研究,也有用文生图diffusion的那种直接预测所有再优化的)

2、输入token太多,每个都要用到相关的太占用内存(也有相关研究,可以更关注更有效地token)

3、算法和硬件的协同,如果flash attention等来优化计算,本质是模型运算速度主要看访存和计算

4、工程上的优化,如果kv-cache等,还有最近kimi2的1T参数的MoE模型,也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。

参考资料

1、happy-llm 3.3 Decoder-Only PLM

2、仅需24GB显存!普通人如何在笔记本本地运行1T参数Kimi K2大模型?

相关推荐
乔代码嘚1 分钟前
Agentic-KGR:多智能体强化学习驱动的知识图谱本体渐进式扩展技术
人工智能·学习·大模型·知识图谱·ai大模型·大模型学习·大模型教程
zhangrelay1 小时前
三分钟云课实践速通--模拟电子技术-模电--SimulIDE
linux·笔记·学习·ubuntu·lubuntu
木木_王1 小时前
嵌入式Linux学习 | 数据结构 (Day05) 栈与队列详解(原理 + C 语言实现 + 实战实验 + 易错点剖析)
linux·c语言·开发语言·数据结构·笔记·学习
lkforce1 小时前
MiniMind学习笔记(三)--train_pretrain.py(预训练)
笔记·机器学习·ai·预训练·minimind·train_pretrain
OSwich1 小时前
【 Godot 4 学习笔记】数组(Array)
笔记·学习·godot
程序员-小李2 小时前
uv 学习总结:从零到一掌握现代化 Python 工具链
python·学习·uv
数据皮皮侠AI2 小时前
中国城市可再生能源数据集(2005-2021)|顶刊 Sci Data 11 种能源面板
大数据·人工智能·笔记·能源·1024程序员节
其实防守也摸鱼2 小时前
面试常问问题总结--护网蓝队方向
网络·笔记·安全·面试·职场和发展·护网·初级蓝队
nashane2 小时前
HarmonyOS 6学习:页面跳转弹窗状态保持全解析
学习·华为·harmonyos·harmonyos 5
山楂树の2 小时前
图像标注大坑:img图片 + Canvas 叠加标注,同步放大后标注位置偏移、对不齐?详解修复方案及亚像素处理原理
前端·css·学习·canva可画