大模型基础架构

文军的烹饪实验室2024-10-08 14:38

Transformer

设计者：Google

特点：最流行，几乎所有大模型都用它

代码：https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者：PENG Bo

特点：可并行训练，推理性能极强，适合在端侧使用

代码：https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者：CMU&Princeton University

特点：性能更佳，尤其适合长文本生成

代码：https://github.com/state-spaces/mamba

上一篇：国产长芯微LPQ9008菊花链接口的18单元电池监控器完全P2P替代ADBMS1818

下一篇：10月7日刷题记录

热门推荐

01两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 02GitHub 镜像站点 03UV安装并设置国内源 04KGG转MP3工具|非KGM文件|解密音频 05Linux下V2Ray安装配置指南 06jdk21下载、安装（Windows、Linux、macOS）07DeepSeek-VL 解析：混合视觉-语言模型如何超越传统计算机视觉方法 08一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示 09Claude Code & 智谱GLM-4.5 环境配置指南 (Windows/macOS/Ubuntu)1046个Nano-banana 精选提示词，持续更新中