Mamba 状态空间模型 笔记 llm框架 一维卷积

动画讲解 Mamba 状态空间模型_哔哩哔哩_bilibili

旧文本向量乘权重加残差 感觉好像transformer

过个llm head输出y

卷积真的很快

参考一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)_mamba模型-CSDN博客

偷了

Transformer的二次复杂度哪来的

为什么rnn会忘记一部分信息,mamba不会

mamba的A,B,C矩阵是独立于文本存在的吗

参考【官方Mamba库】原理简述和代码解析_mamba模型代码-CSDN博客

mamba没有rnn的tanh激活函数怎么实现非线性化的

相关推荐
ahhhhaaaa-1 小时前
【学习笔记】TCP 与 UDP
笔记·学习·tcp/ip
寻丶幽风1 小时前
论文阅读笔记——Large Language Models Are Zero-Shot Fuzzers
论文阅读·pytorch·笔记·深度学习·网络安全·语言模型
ZHANG8023ZHEN1 小时前
Pluto论文阅读笔记
论文阅读·笔记
东京老树根1 小时前
SAP学习笔记 - 开发22 - 前端Fiori开发 数据绑定(Jason),Data Types(数据类型)
前端·笔记·学习
huangyuchi.2 小时前
【Linux】编译器gcc/g++及其库的详细介绍
linux·运维·服务器·笔记·编译器·gcc·g++
百里香酚兰3 小时前
【AI学习笔记】Coze工作流写入飞书多维表格(即:多维表格飞书官方插件使用教程)
笔记·学习·大模型·飞书·pe·coze
Cynthia-石头3 小时前
论文润色指令
笔记
我是坑货7 小时前
Spring学习笔记:Spring的基于注解的XML的详细配置
笔记·学习·spring
东京老树根11 小时前
SAP学习笔记 - 开发18 - 前端Fiori开发 应用描述符(manifest.json)的用途
笔记·学习