大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
JovaZou20 分钟前
Meta 发布 Quest 3S 头显及 AR 眼镜原型:开启未来交互新视界
ai·ar·交互·虚拟现实·增强现实
小猪包3333 小时前
ai论文写作软件哪个好?分享5款ai论文题目生成器
人工智能·深度学习·计算机视觉·ai写作
ZPC82104 小时前
Pytorch详解-Pytorch核心模块
人工智能·pytorch·python·深度学习·机器学习
985小水博一枚呀4 小时前
【深度学习基础模型】极限学习机(Extreme Learning Machines, ELM)详细理解并附实现代码。
人工智能·python·深度学习·极限学习机
985小水博一枚呀4 小时前
【深度学习基础模型】液态状态机(Liquid State Machines, LSM)详细理解并附实现代码。
人工智能·python·rnn·深度学习
青山瀚海5 小时前
多模态简单了解
深度学习·算法·机器学习·transformer
sp_fyf_20245 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04
人工智能·深度学习·算法·机器学习·计算机视觉·语言模型·数据挖掘
肖遥Janic6 小时前
Stable Diffusion绘画 | 插件-Deforum:动态视频生成(终篇)
人工智能·ai·ai作画·stable diffusion
念啊啊啊啊丶6 小时前
【AIGC】2021-arXiv-LoRA:大型语言模型的低秩自适应
人工智能·深度学习·神经网络·机器学习·自然语言处理
Mr_Happy_Li7 小时前
利用GPU进行训练
python·深度学习·神经网络·机器学习·计算机视觉