【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
知识分享小能手1 小时前
jQuery 入门学习教程,从入门到精通, jQuery在HTML5中的应用(16)
前端·javascript·学习·ui·jquery·html5·1024程序员节
吃个糖糖1 小时前
Pytorch 学习之Transforms
人工智能·pytorch·学习
常常不爱学习1 小时前
Vue3 + TypeScript学习
开发语言·css·学习·typescript·html
CandyU22 小时前
UE5 C++ 进阶学习 小知识点 —— 01 - 本地化语言
学习·ue5
武陵悭臾3 小时前
Python应用开发学习: Pygame 中实现数字水平靠右对齐和垂直靠底对齐
python·学习·程序人生·游戏·个人开发·学习方法·pygame
Tonya433 小时前
测开学习DAY26
学习
水月wwww3 小时前
vue学习之组件与标签
前端·javascript·vue.js·学习·vue
952364 小时前
数据结构-链表
java·数据结构·学习
找了一圈尾巴4 小时前
软件架构设计学习-基本概念
学习·软件架构
驯狼小羊羔4 小时前
学习随笔-require和import
前端·学习