【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
执念斩长河4 分钟前
go中间件学习
学习·中间件·golang
一张土豆泥(准备秋招版)29 分钟前
【毕业论文格式】word分页符后的标题段前间距消失
学习
瞌睡不来1 小时前
(学习总结28)Linux 基本命令3
linux·学习
一人前行1 小时前
Flutter_学习记录_ ImagePicker拍照、录制视频、相册选择照片和视频、上传文件
学习·flutter
BUG 劝退师2 小时前
C语言学习总结
c语言·学习·算法
埃菲尔铁塔_CV算法3 小时前
C# WPF 基础知识学习(三)
人工智能·神经网络·学习·计算机视觉·c#·wpf
qincjun4 小时前
uni-app学习笔记——自定义模板
笔记·学习·uni-app
*TQK*4 小时前
双指针算法介绍+算法练习(2025)
c++·学习·算法·双指针
阿楠小波5 小时前
蓝桥杯嵌入式组第十二届省赛题目解析+STM32G431RBT6实现源码
c语言·stm32·单片机·学习·蓝桥杯
不想秃头儿6 小时前
MySql学习_基础Sql语句
数据库·学习·mysql