【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
板栗焖小鸡26 分钟前
STM32-PWM驱动无源蜂鸣器
stm32·学习
Code季风30 分钟前
Gin 中间件详解与实践
学习·中间件·golang·go·gin
sealaugh328 小时前
aws(学习笔记第四十八课) appsync-graphql-dynamodb
笔记·学习·aws
水木兰亭9 小时前
数据结构之——树及树的存储
数据结构·c++·学习·算法
鱼摆摆拜拜9 小时前
第 3 章:神经网络如何学习
人工智能·神经网络·学习
aha-凯心9 小时前
vben 之 axios 封装
前端·javascript·学习
ytttr87313 小时前
matlab通过Q学习算法解决房间路径规划问题
学习·算法·matlab
听风ツ16 小时前
固高运动控制
学习
西岭千秋雪_16 小时前
Redis缓存架构实战
java·redis·笔记·学习·缓存·架构
XvnNing16 小时前
【Verilog硬件语言学习笔记4】FPGA串口通信
笔记·学习·fpga开发