【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
sinat_255487818 小时前
读者、作家 Java集合学习笔记
java·笔记·学习
Edward111111119 小时前
3.18异常学习
学习
正经人_x10 小时前
学习日记34:UNETR
学习
科技林总10 小时前
【系统分析师】12.3 软件架构描述与表示
学习
wincheshe10 小时前
AI Agent 开发学习 --- 框架开发实践(三)
人工智能·学习
2501_9181269112 小时前
学习所有6502写游戏存档的语句
汇编·嵌入式硬件·学习·游戏·个人开发
星雨流星天的笔记本13 小时前
2.用洗洁精洗过的三口烧瓶的处理方法
学习
云边散步13 小时前
godot2D游戏教程系列二(18)
笔记·学习·游戏
風清掦13 小时前
【江科大STM32学习笔记-09】USART串口协议 - 9.1 STM32 USART串口外设
笔记·stm32·单片机·嵌入式硬件·学习
奶茶精Gaaa13 小时前
AI实战(二)生成ui自动化
功能测试·学习·自动化