注意力机制

【机器学习基础】Attention in Transformers：注意力机制大型语言模型（LLM）的发展并非一蹴而就。其思想源头可追溯至1966年的聊天机器人ELIZA，而1997年长短期记忆（LSTM）网络的诞生，则为模型处理序列数据和学习文本规律奠定了基础。不过，RNN 一个显著缺点是无法无法在时间步上并行（当前时刻依赖上一个时刻）。

潘帕斯的雄鹰

直观理解注意力机制传统的注意力机制在encoder-decoder架构中提出，是decoder在做输出预测的时候，考虑encoder中的输入，而不仅仅考虑当前的状态。这样优化了传统RNN模型随着序列增加信息丢失的问题。传统注意力机制的QKV来自于跨序列，即K/V来自编码器中的输入向量，Q来自解码器中的输出向量。

GPT-OSS大模型Attention架构设计大模型推理时，在大部分层上能观察到注意力很大程度关注到开头的几个token上，在StreamingLLM中被称为attention sink。究其原因，并不是开头的token一定最重要，而是当大模型无法有效关注到主要token时，由于开头的token能被后面所有token看到，所以表现出很高的attention score。

注意力机制：Jointly Learning to Align and Translate中从双向RNN编码器到软对齐的完整流程论文标题“Jointly Learning to Align and Translate”点明了其核心贡献：模型在一个统一的框架内，同时学习翻译任务和源语言与目标语言之间的词语对齐关系。这种对齐是通过注意力权重 αij 隐式学习得到的，它量化了在生成目标词 yi 时，对源词 xj 的关注程度。

【论文精读】Matten：融合 Mamba 与 Attention 的视频生成新范式标题：Matten: Video Generation with Mamba-Attention作者：Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma（Zequn Jie 为通讯作者）

图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)目录一、摘要图注意力网络（GAT）技术优势核心创新二、介绍提出了一种新型神经网络架构——图注意力网络（GAT），该架构基于图结构数据运行，通过掩码自注意力层解决传统图卷积方法及其近似算法的局限性。通过堆叠多层注意力机制，模型使节点能够自适应地关注邻居节点的特征，并隐式地为不同邻居节点分配差异化权重。这一设计无需依赖昂贵的矩阵运算（如求逆），也无需预先了解完整的图结构信息。

FlashAttention 原理与工程实践：从 IO-aware 到 H100 上的 1 PFLOPs/s关键词：IO-aware、在线 Softmax（online softmax）、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3

【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文标题：Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 作者：Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai 发表会议：CVPR 2020 论文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_

从另一个视角看Transformer：注意力机制就是可微分的k-NN算法注意力机制听起来很玄乎，但我们可以把它看作一个软k-NN算法。查询向量问：“谁跟我最像？”，softmax投票，相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释：一个可微分的软k-NN：计算相似度 → softmax转换为权重 → 对邻居值求加权平均。

论文阅读-Correlate and Excite在IGEV中构建几何编码体 C G C_G CG时用到了本文将要描述的CoEx，IGEV中没有说明为什么要这样做，本文就是对代价体激励这部分内容进行说明。基于3D卷积的立体匹配算法通常计算左右输入图像之间的特征互相关或将左右图的特征直接拼接来构建代价体。我们这里将前者称为相关体，后者称为成本体，两者统称为代价体。相关体将输入左右图像的特征 H × W × C H \times W \times C H×W×C转变为左右图的余弦相似度特征 H × W × D H \times W \times D H×

李沐深度学习论文精读（二）Transformer + GAN目录1. Transformer1. 摘要2. 结论结果+优势+未来3. Introduction -- RNN痛点与Transformer优势

会写代码的饭桶

Transformers 学习入门：注意力机制剖析想象你在看一部侦探电影：屏幕上同时出现了凶手的表情、掉落的凶器、背景里的时钟三个信息。你的大脑会自动聚焦在 “凶器” 和 “凶手表情” 上，因为这两个是破案的关键 —— 这就是人类的注意力机制。

自然语言处理——04 注意力机制人类视觉注意力机制的本质，是大脑在长期进化里形成的信号处理模式，能让我们高效处理视觉信息，不用逐像素分析，而是先整体扫描、再聚焦关键，像你看一幅画，会先快速扫一眼大概场景，再聚焦人物、特别色彩这些重点；

发文暴论！线性注意力is all you need！2025深度学习发论文&模型涨点之——线性注意力线性注意力（Linear Attention）是一种改进版的注意力机制，它在保持注意力机制强大建模能力的同时，显著降低了计算复杂度和内存占用，使其更适合处理大规模数据和长序列任务。线性注意力的核心思想是将传统的自注意力机制中的二次项计算（即两两位置之间的相似度计算）替换为线性操作。

这张生成的图像能检测吗

（论文速读）RMT：Retentive+ViT的视觉新骨干论文题目：RMT: Retentive Networks Meet Vision Transformers（RMT:Retentive网络与视觉变压器相遇）

YOLO12 改进、魔改｜直方图 Transformerm模块HTB ，通过动态范围特征分组、针对性注意力与多尺度融合，提高对遮挡以及多尺度目标的关注能力在恶劣天气（如雨、雪、雾）下的图像恢复任务中，传统 Transformer 模型为降低计算量，常将自注意力限制在固定空间范围或仅在通道维度操作，导致难以捕捉长距离空间特征，尤其无法有效处理天气退化像素（如雪花、雨滴）与清晰背景像素的差异。为解决这一局限，研究者提出了 Histogram Transformer Block（HTB），作为 Histoformer 的核心组件，旨在通过动态范围的特征处理机制，实现对长距离相似退化特征的精准捕捉，同时兼顾局部与全局特征融合，提升恶劣天气下图像恢复的效率与精度。

深度学习中的 Seq2Seq 模型与注意力机制Seq2Seq（Sequence-to-Sequence）是一种端到端的编码器-解码器架构，专为处理变长输入/输出序列的任务设计（如机器翻译、文本摘要）。其核心思想是将输入序列编码为固定维度的上下文向量（Context Vector），再通过解码器生成目标序列。

Ai尚研修-贾莲

最新Transformer模型及深度学习前沿技术应用近年来，随着卷积神经网络（CNN）等深度学习技术的飞速发展，人工智能迎来了第三次发展浪潮，AI技术在各行各业中的应用日益广泛。为了帮助学员深入了解人工智能领域近3-5年内的最新理论与技术，Ai尚研修特别推出全新的《Transformer模型及深度学习前沿技术应用高级培训班》。本课程将带您全面掌握AI前沿技术、新理论及其Python代码实现，助您走在人工智能的技术前沿。课程内容采用“理论讲解 + 案例实战 + 动手实操 + 讨论互动”的多元教学方式，层层剖析，深入浅出地讲解以下核心技术：

TensorFlow深度学习实战（16）——注意力机制详解在传统的神经网络中，所有的输入都被平等地处理，而注意力机制通过为输入的不同部分分配不同的权重(即注意力权重)，使得网络能够更关注于对当前任务最重要的信息。例如在机器翻译中，某个单词在句子中比其他单词更关键，注意力机制会将更多的权重分配给该单词，从而使网络在生成翻译时能够更好地理解上下文。在本中，介绍了注意力机制的原理，以及如何利用注意力机制来提高 Seq2Seq 模型的性能。

【现代深度学习技术】注意力机制05：多头注意力【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现