【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
Lyinj1 天前
springboot源码学习。(SPI和自动装配)
java·spring boot·学习
Brookty1 天前
【算法】双指针(一)移动零
学习·算法
ShineWinsu1 天前
对于单链表相关经典算法题:206. 反转链表及876. 链表的中间结点的解析
java·c语言·数据结构·学习·算法·链表·力扣
FPGAI1 天前
Qt的入门
笔记·qt·学习
脑洞代码1 天前
20250905的学习笔记
笔记·学习
浊浪载清辉1 天前
《Html泛型魔法学院:用霍格沃茨风格网页教授集合框架》
前端·javascript·学习·html
yuxb731 天前
Docker学习笔记(二):镜像与容器管理
笔记·学习·docker
LFly_ice1 天前
学习React-9-useSyncExternalStore
javascript·学习·react.js
gmmi1 天前
嵌入式学习 51单片机(3)
单片机·学习·51单片机
楼田莉子1 天前
C++算法专题学习——分治
数据结构·c++·学习·算法·leetcode·排序算法