大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
PKNLP12 分钟前
深度学习之神经网络1(Neural Network)
人工智能·深度学习·神经网络
Elastic 中国社区官方博客1 小时前
Elasticsearch:使用推理端点及语义搜索演示
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
AI新兵1 小时前
深度学习基础:从原理到实践——第一章感知机(中)
人工智能·深度学习
CH3_CH2_CHO2 小时前
DAY03:【DL 第一弹】神经网络
人工智能·pytorch·深度学习·神经网络
realhuizhu3 小时前
📚 技术人的阅读提效神器:多语言智能中文摘要生成指令
人工智能·ai·chatgpt·prompt·提示词·总结·deepseek·摘要
apocalypsx3 小时前
深度学习-Kaggle实战1(房价预测)
人工智能·深度学习
春末的南方城市3 小时前
开放指令编辑创新突破!小米开源 Lego-Edit 登顶 SOTA:用强化学习为 MLLM 编辑开辟全新赛道!
人工智能·深度学习·机器学习·计算机视觉·aigc
java1234_小锋4 小时前
TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 计算图和 tf.function 简介
python·深度学习·tensorflow·tensorflow2
红宝村村长5 小时前
【学习笔记】从零构建大模型
深度学习
StarPrayers.6 小时前
卷积层(Convolutional Layer)学习笔记
人工智能·笔记·深度学习·学习·机器学习