【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:

2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

相关推荐
Larry_Yanan34 分钟前
QML学习笔记(十九)QML的附加信号处理器
开发语言·笔记·qt·学习·ui
lingggggaaaa38 分钟前
小迪安全v2023学习笔记(九十讲)—— 小程序篇&反编译&外在&主包分包&配置泄露&算法逆向&未授权
笔记·学习·安全·web安全·网络安全·小程序
huizhixue-IT1 小时前
每日信息分享,ITSS学习考试内容
学习
长安——归故李2 小时前
【PLC程序学习】
java·c语言·javascript·c++·python·学习·php
驱动起爆大师x_x3 小时前
CAN总线的数据采样和同步问题
stm32·嵌入式硬件·学习·can
武陵悭臾3 小时前
安卓应用开发学习:应用ViewPager2翻页视图实现页面水平切换
android·学习·viewpager2·deepseek·翻页视图
charlie1145141913 小时前
精读C++20设计模式——创造型设计模式:单例模式
c++·学习·单例模式·设计模式·c++20
leo_yu_yty4 小时前
Mysql DBA学习笔记(主从复制)
学习·mysql·dba
明明真系叻5 小时前
量子计算学习笔记(2)
笔记·学习·量子计算
哲Zheᗜe༘5 小时前
了解学习Nginx反向代理与缓存功能
学习·nginx·缓存