【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
爱上好庆祝2 小时前
svg图片
前端·css·学习·html·css3
嵌入式小企鹅2 小时前
蓝牙学习系列(八):BLE L2CAP 协议详解
网络·学习·蓝牙·ble·协议栈·l2cap
jiayong233 小时前
第 8 课:开始引入组合式函数
前端·javascript·学习
格鸰爱童话4 小时前
向AI学习项目技能(五)
java·学习
技术人生黄勇4 小时前
拆解 Hermes Agent:开源 Agent 里唯一的闭环学习系统
学习
凉、介4 小时前
别再把 PCIe 的 inbound/outbound、iATU 和 eDMA 混为一谈
linux·笔记·学习·嵌入式·pcie
speop5 小时前
TASK01 | Reasoning Kindom
学习
2301_822703205 小时前
鸿蒙flutter三方库实战——教育与学习平台:Flutter Markdown
学习·算法·flutter·华为·harmonyos·鸿蒙
码喽7号6 小时前
vue学习四:Axios网络请求
前端·vue.js·学习
星幻元宇VR6 小时前
VR科普行走平台适用哪些科普教育主题
科技·学习·安全·vr·虚拟现实