大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
SEOETC24 分钟前
AIGC|杭州AI优化企业新榜单与选择指南
人工智能·ai·aigc
哥布林学者28 分钟前
吴恩达深度学习课程二: 改善深层神经网络 第二周:优化算法(三)Momentum梯度下降法
深度学习·ai
AI街潜水的八角1 小时前
深度学习十种食物分类系统1:数据集说明(含下载链接)
人工智能·深度学习·分类
逻极1 小时前
Kiro 安全最佳实践:守护代理式 IDE 的 “防火墙”
ide·人工智能·安全·ai
B站_计算机毕业设计之家2 小时前
深度学习:python人脸表情识别系统 情绪识别系统 深度学习 神经网络CNN算法 ✅
python·深度学习·神经网络·算法·yolo·机器学习·cnn
CV视觉2 小时前
AI 实战篇:用 LangGraph 串联 RAG+MCP Server,打造能直接操控 Jira 的智能体
人工智能·深度学习·机器学习·自然语言处理·langchain·prompt·jira
渡我白衣2 小时前
链接的迷雾:odr、弱符号与静态库的三国杀
android·java·开发语言·c++·人工智能·深度学习·神经网络
熊猫_豆豆3 小时前
QT6 写一个诗词鉴赏、朗诵、阅读程序(智谱清言AI赏析接口)
c++·ai·智谱清言·古诗鉴赏
Mr_Oak3 小时前
【multi-model】moco系列&SimCLR&BEiT
人工智能·深度学习·神经网络·算法·计算机视觉·transformer·对比学习
小白跃升坊3 小时前
信息检索类智能体构建范式
人工智能·ai·全文检索·智能体