【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
石像鬼₧魂石1 小时前
内网渗透靶场实操清单(基于 Vulhub+Metasploitable 2)
linux·windows·学习·ubuntu
醇氧3 小时前
org.jetbrains.annotations的@Nullable 学习
java·开发语言·学习·intellij-idea
敲敲了个代码4 小时前
隐式类型转换:哈基米 == 猫 ? true :false
开发语言·前端·javascript·学习·面试·web
Pandora_4175 小时前
cursor学习
学习
崇山峻岭之间5 小时前
Matlab学习笔记02
笔记·学习·matlab
Kiri霧6 小时前
Range循环和切片
前端·后端·学习·golang
hssfscv7 小时前
Javaweb 学习笔记——html+css
前端·笔记·学习
Mr.Jessy7 小时前
JavaScript高级:深浅拷贝、异常处理、防抖及节流
开发语言·前端·javascript·学习
博客胡8 小时前
Python-fastAPI的学习与使用
学习·fastapi·ai编程
HyperAI超神经8 小时前
【Triton 教程】triton_language.load
人工智能·学习·大语言模型·cpu·gpu·编程语言·triton