【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
李泽辉_26 分钟前
深度学习算法学习(五):手动实现梯度计算、反向传播、优化器Adam
深度学习·学习·算法
星火开发设计30 分钟前
C++ set 全面解析与实战指南
开发语言·c++·学习·青少年编程·编程·set·知识
坚持就完事了37 分钟前
Linux的学习03:时间没有更新怎么解决
学习
李泽辉_41 分钟前
深度学习算法学习(一):梯度下降法和最简单的深度学习核心原理代码
深度学习·学习·算法
im_AMBER1 小时前
Leetcode 99 删除排序链表中的重复元素 | 合并两个链表
数据结构·笔记·学习·算法·leetcode·链表
YangYang9YangYan1 小时前
中专大数据技术专业学习数据分析的价值分析
大数据·学习·数据分析
testpassportcn2 小时前
Fortinet FCSS_SDW_AR-7.4 認證介紹|Fortinet Secure SD-WAN 高級路由專家考試
网络·学习·改行学it
光影少年2 小时前
vite为什么速度快?
前端·学习
zhutoutoutousan2 小时前
氛围数学学习:用游戏化思维征服抽象数学
学习·算法·游戏
爱的瀚海天空2 小时前
claude code使用学习记录--安装环境和程序
学习