大模型基础架构

Transformer

设计者:Google

特点:最流行,几乎所有大模型都用它

代码:https://github.com/openai/finetune-transformer-lm/blob/master/train.py

RWKV

设计者:PENG Bo

特点:可并行训练,推理性能极强,适合在端侧使用

代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v5

https://www.rwkv.com/

Mamba

设计者:CMU&Princeton University

特点:性能更佳,尤其适合长文本生成

代码:https://github.com/state-spaces/mamba

相关推荐
AI人工智能+21 分钟前
一种以深度学习与计算机视觉技术为核心的表格识别系统,实现了结构化、半结构化表格的精准文字提取、布局解析与版面完整还原
深度学习·计算机视觉·ocr·表格识别
俊哥V1 小时前
每日 AI 研究简报 · 2026-04-09
人工智能·ai
AI视觉网奇1 小时前
几何数据集 多模态
人工智能·深度学习
Agent产品评测局1 小时前
企业数据处理自动化落地,抓取分析全流程实现方案 —— 2026企业级智能体选型与技术路径深度解析
运维·人工智能·ai·自动化
熊猫钓鱼>_>1 小时前
从“流程固化“到“意图驱动“:大模型调智能体调Skill架构深度解析
ai·架构·大模型·llm·agent·skill·openclaw
xyz_CDragon2 小时前
OpenClaw Skills 完全指南:ClawHub 安装、安全避坑与自定义开发(2026)
人工智能·python·ai·skill·openclaw·clawhub
2501_948114242 小时前
DeepSeek V4 全面实测:万亿参数开源模型的工程落地与成本推演
人工智能·ai·开源
南师大蒜阿熏呀2 小时前
openclaw 多智能体协同简易版案例实战
ai·openclaw
Agent产品评测局2 小时前
互联网行业自动化平台选型,运营全流程提效指南:2026企业级智能体架构与实战全解析
运维·人工智能·ai·chatgpt·架构·自动化
就是这么拽呢3 小时前
论文查重低但AIGC率高,如何补救?
论文阅读·人工智能·ai·aigc