大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
MM_MS32 分钟前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
齐齐大魔王2 小时前
Pascal VOC 数据集
人工智能·深度学习·数据集·voc
Hcoco_me3 小时前
RNN(循环神经网络)
人工智能·rnn·深度学习
柠柠酱6 小时前
【深度学习Day5】决战 CIFAR-10:手把手教你搭建第一个“正经”的卷积神经网络 (附调参心法)
深度学习
gravity_w6 小时前
Hugging Face使用指南
人工智能·经验分享·笔记·深度学习·语言模型·nlp
少林码僧6 小时前
2.29 XGBoost、LightGBM、CatBoost对比:三大梯度提升框架选型指南
人工智能·机器学习·ai·数据挖掘·数据分析·回归
Yeats_Liao7 小时前
MindSpore开发之路(二十六):系列总结与学习路径展望
人工智能·深度学习·学习·机器学习
xiucai_cs8 小时前
本地搭建 AI 翻译服务:LM Studio + STranslate/Bob
ai·机器翻译
Golang编程笔记8 小时前
电商数据分析的未来发展路径
ai·数据挖掘·数据分析
UnderTurrets8 小时前
A_Survey_on_3D_object_Affordance
pytorch·深度学习·计算机视觉·3d