台大李宏毅老师讲解memba和类似linear atttenion 模型,笔记

还有外国人还是会万玩, du公司股份,看 2027年 transformer 还是霸榜

可以使用bili2text工具从指定B站视频中根据语音提取文字资料,该工具输入链接即可使用,免费且能一步到位地实现Bilibili视频转文字。其项目地址为:https://gitcode.com/gh_mirrors/bi/bili2text

memba 通过RNN讲解 ,而不是从工程学的smm 角度讲解

每一个模型为了解决一个问题,存在都有他的理由

残差网络

解释为什么要有残差网络,提供了可视化 loss变化

self-attenion

RNN

self-attention

\\

### selft-attenion

更加并行计算(台湾叫平行化)

在这里插入图片描述

RNN 改进 linear attention

简化函数 fa 去掉 相当 不做运算 ht-1 -= ht-1 不做计算

扫描算法,不作介绍,后面有i更加简单的

linear attention 2020年

记忆有限 transformer 一样。其实就是少了softmax

长度够长 数据会重复 ,t>d

在低维空间中 ,只能找到第一个正交的向量

linear attteion 真正的问题,不会遗忘,固定

所有lineeare attention 模型列表

deltanet

如何训练mamba 现有语言模型,去掉selft-attiion 。然后训练,或者不去掉selft-attention

du局

视频资料

https://www.bilibili.com/video/BV1XBe3zRE18/?spm_id_from=333.337.search-card.all.click\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

l另外一个视频,

https://www.bilibili.com/video/BV1uEoXBgE7D/?spm_id_from=333.337.search-card.all.click\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/00fa12ae7db14d3da420ecf3600ac36c.png)

相关推荐
IT_陈寒6 小时前
Vite的静态资源打包让我熬夜到三点,这坑千万别跳
前端·人工智能·后端
玩转AI不是事7 小时前
用IndexedDB做AI对话离线缓存实战
人工智能
Asize7 小时前
多模态生图:从 Vite 工程化到前端调用 Qwen Image
javascript·人工智能·后端
MobotStone7 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
十有八七7 小时前
AI时代的置身X内
前端·人工智能
Lkstar7 小时前
A2A协议深度解析|Agent2Agent通信标准,智能体互联网的"HTTP"
人工智能·llm
百度Geek说7 小时前
当代码越来越便宜,什么在变贵?
人工智能
橘子星7 小时前
LLM 无状态架构实践:从原理到代码落地
前端·javascript·人工智能
召钱熏8 小时前
裸聊可用 ≠ 工作流可用:Gemma4 12B 接入 Claude Code 的真实踩坑复盘
人工智能
黄敬峰8 小时前
从 Token 到向量:手把手带你通过代码读懂大模型(LLM)的“黑盒”原理
人工智能