【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
埃菲尔铁塔_CV算法1 小时前
C# WPF 基础知识学习(三)
人工智能·神经网络·学习·计算机视觉·c#·wpf
qincjun1 小时前
uni-app学习笔记——自定义模板
笔记·学习·uni-app
*TQK*1 小时前
双指针算法介绍+算法练习(2025)
c++·学习·算法·双指针
阿楠小波2 小时前
蓝桥杯嵌入式组第十二届省赛题目解析+STM32G431RBT6实现源码
c语言·stm32·单片机·学习·蓝桥杯
不想秃头儿3 小时前
MySql学习_基础Sql语句
数据库·学习·mysql
虾球xz4 小时前
游戏引擎学习第150天
学习·算法·游戏引擎
Suckerbin4 小时前
BSides Vancouver: 2018 (Workshop)
学习·安全·网络安全
Acd_7134 小时前
三角函数:从宇宙法则到AI革命的数学密钥
学习
大白的编程日记.6 小时前
【Linux学习笔记】Linux用户和文件权限的深度剖析
linux·笔记·学习
瘦瘦的追梦洋7 小时前
学习Android Audio 焦点记录
android·学习·audio