大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
程序员鱼皮1 小时前
Cursor 1.2重磅更新,这个痛点终于被解决了!
ai·程序员·编程·agent·软件开发
victory04312 小时前
SpiceMix enables integrative single-cell spatial modeling of cell identity 文章解读
人工智能·深度学习
我爱一条柴ya3 小时前
【AI大模型】线性回归:经典算法的深度解析与实战指南
人工智能·python·算法·ai·ai编程
AI街潜水的八角4 小时前
深度学习图像分类数据集—蘑菇识别分类
人工智能·深度学习·分类
坤坤爱学习2.04 小时前
求医十年,病因不明,ChatGPT:你看起来有基因突变
人工智能·ai·chatgpt·程序员·大模型·ai编程·大模型学
蹦蹦跳跳真可爱5895 小时前
Python----循环神经网络(Transformer ----注意力机制)
人工智能·深度学习·nlp·transformer·循环神经网络
千宇宙航10 小时前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
onceco10 小时前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
天水幼麟11 小时前
动手学深度学习-学习笔记(总)
笔记·深度学习·学习
天水幼麟13 小时前
动手学深度学习-学习笔记【二】(基础知识)
笔记·深度学习·学习