台大李宏毅老师讲解memba和类似linear atttenion 模型，笔记

zhangfeng11332026-06-04 7:07

还有外国人还是会万玩, du公司股份，看 2027年 transformer 还是霸榜

可以使用bili2text工具从指定B站视频中根据语音提取文字资料，该工具输入链接即可使用，免费且能一步到位地实现Bilibili视频转文字。其项目地址为：https://gitcode.com/gh_mirrors/bi/bili2text

memba 通过RNN讲解，而不是从工程学的smm 角度讲解

每一个模型为了解决一个问题，存在都有他的理由

残差网络

解释为什么要有残差网络，提供了可视化 loss变化

self-attenion

RNN

self-attention

\\

### selft-attenion

更加并行计算（台湾叫平行化）

在这里插入图片描述

RNN 改进 linear attention

简化函数 fa 去掉相当不做运算 ht-1 -= ht-1 不做计算

扫描算法，不作介绍，后面有i更加简单的

linear attention 2020年

记忆有限 transformer 一样。其实就是少了softmax

长度够长数据会重复，t>d

在低维空间中，只能找到第一个正交的向量

linear attteion 真正的问题，不会遗忘，固定

所有lineeare attention 模型列表

deltanet

如何训练mamba 现有语言模型，去掉selft-attiion 。然后训练，或者不去掉selft-attention

du局

视频资料

https://www.bilibili.com/video/BV1XBe3zRE18/?spm_id_from=333.337.search-card.all.click\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

l另外一个视频，

https://www.bilibili.com/video/BV1uEoXBgE7D/?spm_id_from=333.337.search-card.all.click\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/00fa12ae7db14d3da420ecf3600ac36c.png)

上一篇：阿姆智创ARM-3568A工控开发板，机器视觉设备控制升级

下一篇：【培训】Agent与OpenClaw

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）09几个好用的ip纯净度检测网站 102026 年 AI 大模型 & AI 编程工具实战全总结