Mamba 状态空间模型 笔记 llm框架 一维卷积

动画讲解 Mamba 状态空间模型_哔哩哔哩_bilibili

旧文本向量乘权重加残差 感觉好像transformer

过个llm head输出y

卷积真的很快

参考一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)_mamba模型-CSDN博客

偷了

Transformer的二次复杂度哪来的

为什么rnn会忘记一部分信息,mamba不会

mamba的A,B,C矩阵是独立于文本存在的吗

参考【官方Mamba库】原理简述和代码解析_mamba模型代码-CSDN博客

mamba没有rnn的tanh激活函数怎么实现非线性化的

相关推荐
朱一头zcy17 小时前
Java基础复习07:异常处理(编译时异常处理、运行时异常处理、try-catch-finally、自定义异常)
java·笔记·异常处理
四谎真好看18 小时前
Redis学习笔记(高级篇2)
redis·笔记·学习·学习笔记
鱼鳞_18 小时前
Java学习笔记_Day26(不可变集合)
java·笔记·学习
CS_Zero18 小时前
Faster-LIO论文与代码笔记(1)
笔记·slam·lio
别了,李亚普诺夫18 小时前
OLED显示屏学习笔记
笔记·嵌入式
智者知已应修善业18 小时前
【51单片机1,左边4个LED灯先闪烁2次后,右边4个LED灯再闪烁2次:2,接着所用灯一起闪烁3次,接着重复步骤1,如此循环。】2023-5-19
c++·经验分享·笔记·算法·51单片机
zhangrelay18 小时前
蓝桥云课一分钟-绚丽贪吃蛇-后续-cmake
笔记·学习
承渊政道18 小时前
【优选算法】(实战攻坚BFS之FloodFill、最短路径问题、多源BFS以及解决拓扑排序)
数据结构·c++·笔记·学习·算法·leetcode·宽度优先
_李小白18 小时前
【OSG学习笔记】Day 39: NodeCallback(帧回调机制)
java·笔记·学习
小陈phd19 小时前
CCPD数据集全解析:中文车牌识别的“双黄金标准“
笔记·学习·生成对抗网络