多头注意力机制

前言

上期说到了自注意力机制,也叫做单头注意力机制。单头注意力只有一套,它只能产生一种注意力分布,如果所有信息都挤在一个注意力空间里,不同类型的关系容易互相干扰。

举个例子:

假设有这样一句话:

这个动物过不了马路,因为它太累了

这里的it指的是谁?

  • 可能关注 animal ↔ tired (理解代词指代)
  • 也可能关注 cross ↔ street (理解动作关系)

在单头注意力机制中:

它一次只能"重点看一种关系"

如果所有信息都挤在

多头注意力怎么做

假设有8个头(8 heads)。

输入 X 后,不再只学习一组头投影矩阵,而是学习8组

表示从不同角度观察这些词的关系,例如:代词关系,动作关系等...

...

每个头独立计算:

最后拼接:

每个头学什么?

训练后,不同头往往会自动分工。

例如:

The little boy who was wearing a red hat kicked the ball.

可能出现:

  • 头1:关注主谓关系
    • boy -> kicked
  • 头2:关注修饰关系
    • boy -> little
  • 头3:关注局部邻近词
    • wearing -> a red hat
  • 头4:关注长距离依赖
    • boy -> hat

总结

多头注意力的核心目的是:

让模型在不同表示子空间中并行的关注不同类型的信息关系,从而获得比单头注意力更强的表达能力

如果把一句话理解成观察一个人:

  • 单头注意力:只有一个摄影师,只能选择一个角度拍照。
  • 多头注意力:有很多摄影师同时拍照:
    • 有人拍正面;
    • 有人拍侧面
    • 有人拍全身;
    • 有人拍细节

最后这些照片综合起来,你会对这个人理解更加完整。

相关推荐
Awu122713 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队13 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇13 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师14 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
vibecoding日记14 小时前
双非如何快速入职字节等大厂大模型?真实案例分析:推理优化和投机解码
算法·求职·大模型工程师
这个DBA有点耶14 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术15 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher15 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员
zzzzzz31015 小时前
你的 AI 写的 React 烂透了?这个 8000+ Star 的开源工具能揪出 90% 的「Agent 屎山」
人工智能
小星AI15 小时前
MCP协议超详细教程,从入门到实战
人工智能