大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
维元码簿14 小时前
Claude Code 深度拆解:Agent 执行内核 2 — Pipeline 与上下文压缩
ai·agent·claude code·ai coding
用AI赚一点14 小时前
AI落地不是造大模型:从概念到落地的核心差异
人工智能·深度学习·机器学习
小超同学你好15 小时前
Transformer 30. MoCo:用「动量编码器 + 队列字典」把对比学习做成可扩展的“字典查找”
深度学习·学习·transformer
hrhcode15 小时前
【LangGraph】二.State 和 Node 的设计细节
python·ai·langchain·langgraph·ai框架
这张生成的图像能检测吗15 小时前
(论文速读)Sonnet:多变量时间序列预测的谱算子神经网络
人工智能·深度学习·时序预测·时序模型
AI医影跨模态组学15 小时前
Research(IF=10.9)南方医科大学珠江医院汪洋教授等团队:深度学习在脊柱MRI诊断中的应用:AI辅助与人工的多中心对比研究
人工智能·深度学习·论文·医学影像·影像组学
带电的小王15 小时前
【动手学深度学习】8.4. 循环神经网络
人工智能·pytorch·rnn·深度学习
yigan_Eins15 小时前
Transformer|残差连接的技术演进:从CNN到ResNet
人工智能·深度学习·cnn·transformer
0xR3lativ1ty15 小时前
每周AI新工具速览:Kiln与OpenRA-RL登场
人工智能·ai
赵康16 小时前
智人曾经这样灭绝猛犸象:AI入侵与行业灭绝
ai·llm