大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
a里啊里啊2 分钟前
AI提示词收集(持续更新)
ai·大模型·prompt·开发·提示词
程序员Linc7 分钟前
写给新人的深度学习扫盲贴:向量与矩阵
人工智能·深度学习·矩阵·向量
Z_W_H_15 分钟前
ArcGIS Pro/GeoScene Pro AI 助手 2.1 安装教程
arcgis·ai·geoscene
wang_yb30 分钟前
不平衡样本数据的救星:数据再分配策略
ai·databook
补三补四38 分钟前
机器学习-聚类分析算法
人工智能·深度学习·算法·机器学习
荷包蛋蛋怪1 小时前
【北京化工大学】 神经网络与深度学习 实验6 MATAR图像分类
人工智能·深度学习·神经网络·opencv·机器学习·计算机视觉·分类
贤小二AI2 小时前
贤小二c#版Yolov5 yolov8 yolov10 yolov11自动标注工具 + 免python环境 GPU一键训练包
人工智能·深度学习·yolo
意.远2 小时前
在PyTorch中使用GPU加速:从基础操作到模型部署
人工智能·pytorch·python·深度学习
你一定走了很远的路吧3 小时前
DeepSeek与ChatGPT的优势对比:选择合适的工具来提升工作效率
ai·chatgpt
Uzuki8 小时前
AI可解释性 II | Saliency Maps-based 归因方法(Attribution)论文导读(持续更新)
深度学习·机器学习·可解释性