大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
翀哥~6 分钟前
DeepSeek 介绍及对外国的影响
ai·deepseek
老艾的AI世界13 分钟前
AI定制祝福视频,广州塔、动态彩灯、LED表白,直播互动新玩法(附下载链接)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai·ai视频·ai视频生成·ai视频制作
前端达人1 小时前
「AI学习笔记」深度学习进化史:从神经网络到“黑箱技术”(三)
人工智能·笔记·深度学习·神经网络·学习
深蓝海拓2 小时前
基于深度学习的视觉检测小项目(十六) 用户管理界面的组态
人工智能·python·深度学习·qt·pyqt
逐梦苍穹2 小时前
神经网络的数据流动过程(张量的转换和输出)
人工智能·深度学习·神经网络
我的青春不太冷4 小时前
2025年最新在线模型转换工具优化模型ncnn,mnn,tengine,onnx
人工智能·深度学习·ncnn·mnn·在线模型转换网址
zxfeng~4 小时前
深度学习之“线性代数”
人工智能·python·深度学习·线性代数
FL16238631295 小时前
玉米苗和杂草识别分割数据集labelme格式1997张3类别
深度学习
梦云澜11 小时前
论文阅读(十二):全基因组关联研究中生物通路的图形建模
论文阅读·人工智能·深度学习