大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
互联网老欣1 天前
2025年保姆级教程:阿里云服务器部署Dify+Ollama,打造专属AI应用平台
服务器·阿里云·ai·云计算·dify·ollama·deepseek
adjusttraining1 天前
毁掉孩子视力不是电视和手机,两个隐藏很深因素,很多家长并不知
深度学习·其他
带刺的坐椅1 天前
Solon AI 开发学习5 - chat - 支持哪些模型?及方言定制
java·ai·openai·solon
Learn Beyond Limits1 天前
Data Preprocessing|数据预处理
大数据·人工智能·python·ai·数据挖掘·数据处理
ziwu1 天前
【宠物识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
ziwu1 天前
海洋生物识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
WWZZ20251 天前
快速上手大模型:深度学习12(目标检测、语义分割、序列模型)
深度学习·算法·目标检测·计算机视觉·机器人·大模型·具身智能
xcLeigh1 天前
AI的提示词专栏:“Prompt Chaining”把多个 Prompt 串联成工作流
人工智能·ai·prompt·提示词·工作流
A-刘晨阳1 天前
喂饭级 Gemini 3.0 使用教程:国内实测可用,看完就学会
ai·gemini3.0
羑悻的小杀马特1 天前
告别限速!手把手用 PicoShare+cpolar 搭建个人极速传输隧道,内网穿透+私有云一步到位!
ai·cpolar·picoshare