多头注意力机制

顾北顾2026-06-13 22:24

前言

上期说到了自注意力机制，也叫做单头注意力机制。单头注意力只有一套，它只能产生一种注意力分布，如果所有信息都挤在一个注意力空间里，不同类型的关系容易互相干扰。

举个例子：

假设有这样一句话：

这个动物过不了马路，因为它太累了

这里的it指的是谁？

可能关注 animal ↔ tired （理解代词指代）
也可能关注 cross ↔ street （理解动作关系）

在单头注意力机制中：

它一次只能"重点看一种关系"

如果所有信息都挤在

多头注意力怎么做

假设有8个头（8 heads）。

输入 X 后，不再只学习一组头投影矩阵，而是学习8组

表示从不同角度观察这些词的关系，例如：代词关系，动作关系等...

...

每个头独立计算：

最后拼接：

每个头学什么？

训练后，不同头往往会自动分工。

例如：

The little boy who was wearing a red hat kicked the ball.

可能出现：

头1：关注主谓关系
- boy -> kicked
头2：关注修饰关系
- boy -> little
头3：关注局部邻近词
- wearing -> a red hat
头4：关注长距离依赖
- boy -> hat

总结

多头注意力的核心目的是：

让模型在不同表示子空间中并行的关注不同类型的信息关系，从而获得比单头注意力更强的表达能力

如果把一句话理解成观察一个人：

单头注意力：只有一个摄影师，只能选择一个角度拍照。
多头注意力：有很多摄影师同时拍照：
- 有人拍正面；
- 有人拍侧面
- 有人拍全身；
- 有人拍细节

最后这些照片综合起来，你会对这个人理解更加完整。

上一篇：PDF 加水印工具怎么选？2026 年文档版权保护方案对比

下一篇：Antigravity Awesome Skills：1527+ AI 编程助手的可安装技能库

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？