注意力机制

@鱼香肉丝没有鱼1 天前
人工智能·深度学习·transformer·注意力机制
Transformer原理—注意力机制Transformer模型,作为自然语言处理(NLP)领域的一块重要里程碑,于2017年由Google的研究者们提出,现在成为深度学习中对文本和语言数据处理具有根本性影响的架构之一。在NLP的宇宙中,如果说RNN、LSTM等神经网络创造了“序列记忆”的能力,那么Transformer则彻底颠覆了这种“记忆”的处理方式——它放弃了传统的顺序操作,而是通过自注意力机制(Self-Attention),赋予模型一种全新的、并行化的信息理解和处理方式。从自注意力的直观概念出发,Transformer的设计者们引进
陈 洪 伟4 天前
transformer·注意力机制
Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力目录1 注意力机制为什么用多头的2 多头注意力的实际数学计算解释2.1 误区1:多头就是直接把512分成8组
盼小辉丶14 天前
pytorch·图神经网络·注意力机制·图注意力网络
PyTorch实战(14)——图注意力网络(Graph Attention Network,GAT)我们已经通过使用图卷积网络 (Graph Convolutional Network, GCN) 模型在节点分类任务上具备了超越了基线多层感知机 (Multilayer Perceptron, MLP) 模型的性能。在本节中,我们将通过将 GCN 模型替换为图注意力网络 (Graph Attention Network, GAT) 模型来进一步提高分类准确率,核心改进在于将邻域节点信息平均聚合机制替换为注意力机制。接下来,将基于 GCN 的解决方案重构为基于 GAT 的解决方案。
远瞻。15 天前
pip·注意力机制
【环境部署】安装flash-attentionpip 安装失败,需要官方下载whl,离线安装,下载地址
AndrewHZ16 天前
图像处理·pytorch·深度学习·算法·计算机视觉·注意力机制·通道注意力
【图像处理基石】什么是图像处理中的注意力机制?大家好!今天我们来聊聊计算机视觉(CV)领域里一个“让模型更聪明”的核心技术——注意力机制。如果你刚接触图像处理,或者想搞懂为什么有些模型(比如ResNet+注意力)效果比普通CNN好,这篇入门博客会带你一步步理清思路,最后还会附上简单的代码实现,帮你快速上手。
一勺汤18 天前
yolo·注意力机制·遮挡·yolo11·yolo11改进·小目标·scsa
YOLO11 改进、魔改| 空间与通道协同注意力模块SCSA,通过空间与通道注意力的协同作用,提升视觉任务的特征提取能力与泛化性能。现有即插即用注意力机制多分为通道注意力、空间注意力及混合注意力三类,但普遍存在两大局限:一是未能充分利用特征中固有的多语义空间信息,难以有效引导空间和通道维度的关键特征提取;二是对特征图间多语义信息导致的语义差异和交互问题处理不足,限制了其在检测、分割等细粒度任务中的适配性。为解决这些问题,SCSA 聚焦维度解耦、轻量化多语义引导和语义差异缓解,探索空间与通道注意力的协同关系。
安如衫23 天前
笔记·深度学习·学习·机器学习·注意力机制
【机器学习基础】Attention in Transformers:注意力机制大型语言模型(LLM)的发展并非一蹴而就。其思想源头可追溯至1966年的聊天机器人ELIZA,而1997年长短期记忆(LSTM)网络的诞生,则为模型处理序列数据和学习文本规律奠定了基础。不过,RNN 一个显著缺点是无法无法在时间步上并行(当前时刻依赖上一个时刻)。
潘帕斯的雄鹰1 个月前
python·transformer·注意力机制·自注意力机制
直观理解注意力机制传统的注意力机制在encoder-decoder架构中提出,是decoder在做输出预测的时候,考虑encoder中的输入,而不仅仅考虑当前的状态。这样优化了传统RNN模型随着序列增加信息丢失的问题。 传统注意力机制的QKV来自于跨序列,即K/V来自编码器中的输入向量,Q来自解码器中的输出向量。
Mr.zwX1 个月前
大模型·注意力机制·gpt-oss
GPT-OSS大模型Attention架构设计大模型推理时,在大部分层上能观察到注意力很大程度关注到开头的几个token上,在StreamingLLM中被称为attention sink。究其原因,并不是开头的token一定最重要,而是当大模型无法有效关注到主要token时,由于开头的token能被后面所有token看到,所以表现出很高的attention score。
提娜米苏1 个月前
rnn·注意力机制
注意力机制:Jointly Learning to Align and Translate中从双向RNN编码器到软对齐的完整流程论文标题“Jointly Learning to Align and Translate”点明了其核心贡献:模型在一个统一的框架内,同时学习翻译任务和源语言与目标语言之间的词语对齐关系。这种对齐是通过注意力权重 αij 隐式学习得到的,它量化了在生成目标词 yi 时,对源词 xj 的关注程度。
m0_650108242 个月前
注意力机制·论文精读·mamba架构·视频生产·潜扩散模型·时空建模
【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式标题:Matten: Video Generation with Mamba-Attention作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)
flying_13142 个月前
人工智能·神经网络·图神经网络·注意力机制·gnn·gat·图注意力网络
图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)目录一、摘要图注意力网络(GAT)技术优势核心创新二、介绍提出了一种新型神经网络架构——图注意力网络(GAT),该架构基于图结构数据运行,通过掩码自注意力层解决传统图卷积方法及其近似算法的局限性。通过堆叠多层注意力机制,模型使节点能够自适应地关注邻居节点的特征,并隐式地为不同邻居节点分配差异化权重。这一设计无需依赖昂贵的矩阵运算(如求逆),也无需预先了解完整的图结构信息。
远上寒山2 个月前
大模型·注意力机制·flash_attention·online softmax·shared memory
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s关键词:IO-aware、在线 Softmax(online softmax)、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3
m0_650108243 个月前
注意力机制·跨域泛化·小样本目标检测(fsod)·rpn·多关系检测器·对比训练·支持集与查询集
【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文标题:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 作者:Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai 发表会议:CVPR 2020 论文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_
deephub3 个月前
人工智能·深度学习·transformer·注意力机制·knn
从另一个视角看Transformer:注意力机制就是可微分的k-NN算法注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:“谁跟我最像?”,softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权平均。
七元权3 个月前
论文阅读·深度学习·注意力机制·双目深度估计
论文阅读-Correlate and Excite在IGEV中构建几何编码体 C G C_G CG时用到了本文将要描述的CoEx,IGEV中没有说明为什么要这样做,本文就是对代价体激励这部分内容进行说明。 基于3D卷积的立体匹配算法通常计算左右输入图像之间的特征互相关或将左右图的特征直接拼接来构建代价体。我们这里将前者称为相关体,后者称为成本体,两者统称为代价体。 相关体将输入左右图像的特征 H × W × C H \times W \times C H×W×C转变为左右图的余弦相似度特征 H × W × D H \times W \times D H×
nju_spy3 个月前
人工智能·深度学习·机器学习·transformer·gan·注意力机制·南京大学
李沐深度学习论文精读(二)Transformer + GAN目录1. Transformer1. 摘要2. 结论 结果+优势+未来3. Introduction -- RNN痛点与Transformer优势
会写代码的饭桶3 个月前
transformer·注意力机制·自注意力·交叉注意力·多头注意力
Transformers 学习入门:注意力机制剖析想象你在看一部侦探电影:屏幕上同时出现了凶手的表情、掉落的凶器、背景里的时钟三个信息。你的大脑会自动聚焦在 “凶器” 和 “凶手表情” 上,因为这两个是破案的关键 —— 这就是人类的注意力机制。
失散134 个月前
人工智能·自然语言处理·注意力机制·seq2seq 架构
自然语言处理——04 注意力机制人类视觉注意力机制的本质,是大脑在长期进化里形成的信号处理模式,能让我们高效处理视觉信息,不用逐像素分析,而是先整体扫描、再聚焦关键,像你看一幅画,会先快速扫一眼大概场景,再聚焦人物、特别色彩这些重点;
AI波克布林4 个月前
人工智能·深度学习·神经网络·机器学习·注意力机制·线性注意力
发文暴论!线性注意力is all you need!2025深度学习发论文&模型涨点之——线性注意力线性注意力(Linear Attention)是一种改进版的注意力机制,它在保持注意力机制强大建模能力的同时,显著降低了计算复杂度和内存占用,使其更适合处理大规模数据和长序列任务。线性注意力的核心思想是将传统的自注意力机制中的二次项计算(即两两位置之间的相似度计算)替换为线性操作。