台大李宏毅老师讲解memba和类似linear atttenion 模型,笔记

还有外国人还是会万玩, du公司股份,看 2027年 transformer 还是霸榜

可以使用bili2text工具从指定B站视频中根据语音提取文字资料,该工具输入链接即可使用,免费且能一步到位地实现Bilibili视频转文字。其项目地址为:https://gitcode.com/gh_mirrors/bi/bili2text

memba 通过RNN讲解 ,而不是从工程学的smm 角度讲解

每一个模型为了解决一个问题,存在都有他的理由

残差网络

解释为什么要有残差网络,提供了可视化 loss变化

self-attenion

RNN

self-attention

\\

### selft-attenion

更加并行计算(台湾叫平行化)

在这里插入图片描述

RNN 改进 linear attention

简化函数 fa 去掉 相当 不做运算 ht-1 -= ht-1 不做计算

扫描算法,不作介绍,后面有i更加简单的

linear attention 2020年

记忆有限 transformer 一样。其实就是少了softmax

长度够长 数据会重复 ,t>d

在低维空间中 ,只能找到第一个正交的向量

linear attteion 真正的问题,不会遗忘,固定

所有lineeare attention 模型列表

deltanet

如何训练mamba 现有语言模型,去掉selft-attiion 。然后训练,或者不去掉selft-attention

du局

视频资料

https://www.bilibili.com/video/BV1XBe3zRE18/?spm_id_from=333.337.search-card.all.click\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

l另外一个视频,

https://www.bilibili.com/video/BV1uEoXBgE7D/?spm_id_from=333.337.search-card.all.click\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/00fa12ae7db14d3da420ecf3600ac36c.png)

相关推荐
xiaozhazha_2 小时前
【技术架构】2026企业级AI落地实践:从RPA到AI Agent的原生CRM重构!
人工智能·架构·rpa
Chris _data2 小时前
并发单词频率统计器 - 从零到完整实现(C# 实战)
开发语言·c#
idolao2 小时前
Oligo 7.60 安装教程:引物设计+Java 环境配置
java·开发语言
不知名的老吴2 小时前
Lambda表达式与新的Streams API相结合
开发语言·python
火山引擎开发者社区8 小时前
技术速递|使用 GitHub Copilot CLI 构建 Emoji 列表生成器
人工智能
石山代码9 小时前
ArrayList / HashMap / ConcurrentHashMap
java·开发语言
codefan※9 小时前
干掉“幻觉“实战:如何构建企业级知识图谱增强 RAG
人工智能·知识图谱
wukangjupingbb9 小时前
传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法的缺陷
人工智能
沪漂阿龙9 小时前
Codex 额度重置周期变化:AI 编程免费试玩时代正在结束
人工智能