【DataWhale】快乐学习大模型 | 202507,Task08笔记

前言

其实个人感觉Encoder-Decoder是优于单纯Decoder的,可能是训练数据、参数量足够大力大砖飞了。

Decoder-Only PLM

从GPT1->GPT3的过程中,参数量逐步上升,训练数据逐步增多,效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要,从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。

回过头来Decoder的本质根据之前的token来预测下一个token。

除了GPT之外,llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

额外思考

现有大模型的优化点

1、预测一个token太慢,直接预测一整块的内容(已有相关研究,也有用文生图diffusion的那种直接预测所有再优化的)

2、输入token太多,每个都要用到相关的太占用内存(也有相关研究,可以更关注更有效地token)

3、算法和硬件的协同,如果flash attention等来优化计算,本质是模型运算速度主要看访存和计算

4、工程上的优化,如果kv-cache等,还有最近kimi2的1T参数的MoE模型,也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。

参考资料

1、happy-llm 3.3 Decoder-Only PLM

2、仅需24GB显存!普通人如何在笔记本本地运行1T参数Kimi K2大模型?

相关推荐
如果你想拥有什么先让自己配得上拥有11 分钟前
近似数的思考学习
学习
崎岖Qiu38 分钟前
【OS笔记35】:文件系统的使用、实现与管理
笔记·操作系统·存储管理·文件系统·os
ha20428941941 小时前
Linux操作系统学习记录之----自定义协议(网络计算器)
linux·网络·学习
振华说技能1 小时前
SolidWorks学习大纲-从基础到全面精通,请看详情
学习
曦月逸霜1 小时前
离散数学-学习笔记(持续更新中~)
笔记·学习·离散数学
hunter14501 小时前
windows server AD域与CA部署证书
笔记
im_AMBER1 小时前
Leetcode 101 对链表进行插入排序
数据结构·笔记·学习·算法·leetcode·排序算法
Mr -老鬼2 小时前
Rust与Go:从学习到实战的全方位对比
学习·golang·rust
laplace01232 小时前
# 第四章|智能体经典范式构建 —— 学习笔记(详细版)
笔记·学习
程序猿零零漆2 小时前
Spring之旅 - 记录学习 Spring 框架的过程和经验(十四)SpringMVC的请求处理
学习·spring·pandas