注意力机制

Mr.zwX16 小时前
大模型·注意力机制·gpt-oss
GPT-OSS大模型Attention架构设计大模型推理时,在大部分层上能观察到注意力很大程度关注到开头的几个token上,在StreamingLLM中被称为attention sink。究其原因,并不是开头的token一定最重要,而是当大模型无法有效关注到主要token时,由于开头的token能被后面所有token看到,所以表现出很高的attention score。
提娜米苏19 小时前
rnn·注意力机制
注意力机制:Jointly Learning to Align and Translate中从双向RNN编码器到软对齐的完整流程论文标题“Jointly Learning to Align and Translate”点明了其核心贡献:模型在一个统一的框架内,同时学习翻译任务和源语言与目标语言之间的词语对齐关系。这种对齐是通过注意力权重 αij 隐式学习得到的,它量化了在生成目标词 yi 时,对源词 xj 的关注程度。
m0_6501082411 天前
注意力机制·论文精读·mamba架构·视频生产·潜扩散模型·时空建模
【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式标题:Matten: Video Generation with Mamba-Attention作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)
flying_131414 天前
人工智能·神经网络·图神经网络·注意力机制·gnn·gat·图注意力网络
图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)目录一、摘要图注意力网络(GAT)技术优势核心创新二、介绍提出了一种新型神经网络架构——图注意力网络(GAT),该架构基于图结构数据运行,通过掩码自注意力层解决传统图卷积方法及其近似算法的局限性。通过堆叠多层注意力机制,模型使节点能够自适应地关注邻居节点的特征,并隐式地为不同邻居节点分配差异化权重。这一设计无需依赖昂贵的矩阵运算(如求逆),也无需预先了解完整的图结构信息。
远上寒山24 天前
大模型·注意力机制·flash_attention·online softmax·shared memory
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s关键词:IO-aware、在线 Softmax(online softmax)、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3
m0_650108241 个月前
注意力机制·跨域泛化·小样本目标检测(fsod)·rpn·多关系检测器·对比训练·支持集与查询集
【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文标题:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 作者:Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai 发表会议:CVPR 2020 论文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_
deephub1 个月前
人工智能·深度学习·transformer·注意力机制·knn
从另一个视角看Transformer:注意力机制就是可微分的k-NN算法注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:“谁跟我最像?”,softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权平均。
七元权2 个月前
论文阅读·深度学习·注意力机制·双目深度估计
论文阅读-Correlate and Excite在IGEV中构建几何编码体 C G C_G CG时用到了本文将要描述的CoEx,IGEV中没有说明为什么要这样做,本文就是对代价体激励这部分内容进行说明。 基于3D卷积的立体匹配算法通常计算左右输入图像之间的特征互相关或将左右图的特征直接拼接来构建代价体。我们这里将前者称为相关体,后者称为成本体,两者统称为代价体。 相关体将输入左右图像的特征 H × W × C H \times W \times C H×W×C转变为左右图的余弦相似度特征 H × W × D H \times W \times D H×
nju_spy2 个月前
人工智能·深度学习·机器学习·transformer·gan·注意力机制·南京大学
李沐深度学习论文精读(二)Transformer + GAN目录1. Transformer1. 摘要2. 结论 结果+优势+未来3. Introduction -- RNN痛点与Transformer优势
会写代码的饭桶2 个月前
transformer·注意力机制·自注意力·交叉注意力·多头注意力
Transformers 学习入门:注意力机制剖析想象你在看一部侦探电影:屏幕上同时出现了凶手的表情、掉落的凶器、背景里的时钟三个信息。你的大脑会自动聚焦在 “凶器” 和 “凶手表情” 上,因为这两个是破案的关键 —— 这就是人类的注意力机制。
失散132 个月前
人工智能·自然语言处理·注意力机制·seq2seq 架构
自然语言处理——04 注意力机制人类视觉注意力机制的本质,是大脑在长期进化里形成的信号处理模式,能让我们高效处理视觉信息,不用逐像素分析,而是先整体扫描、再聚焦关键,像你看一幅画,会先快速扫一眼大概场景,再聚焦人物、特别色彩这些重点;
AI波克布林3 个月前
人工智能·深度学习·神经网络·机器学习·注意力机制·线性注意力
发文暴论!线性注意力is all you need!2025深度学习发论文&模型涨点之——线性注意力线性注意力(Linear Attention)是一种改进版的注意力机制,它在保持注意力机制强大建模能力的同时,显著降低了计算复杂度和内存占用,使其更适合处理大规模数据和长序列任务。线性注意力的核心思想是将传统的自注意力机制中的二次项计算(即两两位置之间的相似度计算)替换为线性操作。
这张生成的图像能检测吗3 个月前
人工智能·深度学习·计算机视觉·transformer·注意力机制
(论文速读)RMT:Retentive+ViT的视觉新骨干论文题目:RMT: Retentive Networks Meet Vision Transformers(RMT:Retentive网络与视觉变压器相遇)
一勺汤3 个月前
yolo·注意力机制·多尺度·遮挡·yolov12·htb·yolo12
YOLO12 改进、魔改|直方图 Transformerm模块HTB ,通过动态范围特征分组、针对性注意力与多尺度融合,提高对遮挡以及多尺度目标的关注能力在恶劣天气(如雨、雪、雾)下的图像恢复任务中,传统 Transformer 模型为降低计算量,常将自注意力限制在固定空间范围或仅在通道维度操作,导致难以捕捉长距离空间特征,尤其无法有效处理天气退化像素(如雪花、雨滴)与清晰背景像素的差异。为解决这一局限,研究者提出了 Histogram Transformer Block(HTB),作为 Histoformer 的核心组件,旨在通过动态范围的特征处理机制,实现对长距离相似退化特征的精准捕捉,同时兼顾局部与全局特征融合,提升恶劣天气下图像恢复的效率与精度。
网安INF4 个月前
人工智能·深度学习·神经网络·注意力机制·seq2seq
深度学习中的 Seq2Seq 模型与注意力机制Seq2Seq(Sequence-to-Sequence)是一种端到端的编码器-解码器架构,专为处理变长输入/输出序列的任务设计(如机器翻译、文本摘要)。其核心思想是将输入序列编码为固定维度的上下文向量(Context Vector),再通过解码器生成目标序列。
Ai尚研修-贾莲5 个月前
人工智能·深度学习·transformer·生成式模型·图神经网络·注意力机制·目标检测算法
最新Transformer模型及深度学习前沿技术应用近年来,随着卷积神经网络(CNN)等深度学习技术的飞速发展,人工智能迎来了第三次发展浪潮,AI技术在各行各业中的应用日益广泛。为了帮助学员深入了解人工智能领域近3-5年内的最新理论与技术,Ai尚研修特别推出全新的《Transformer模型及深度学习前沿技术应用高级培训班》。本课程将带您全面掌握AI前沿技术、新理论及其Python代码实现,助您走在人工智能的技术前沿。课程内容采用“理论讲解 + 案例实战 + 动手实操 + 讨论互动”的多元教学方式,层层剖析,深入浅出地讲解以下核心技术:
盼小辉丶6 个月前
深度学习·tensorflow·注意力机制
TensorFlow深度学习实战(16)——注意力机制详解在传统的神经网络中,所有的输入都被平等地处理,而注意力机制通过为输入的不同部分分配不同的权重(即注意力权重),使得网络能够更关注于对当前任务最重要的信息。例如在机器翻译中,某个单词在句子中比其他单词更关键,注意力机制会将更多的权重分配给该单词,从而使网络在生成翻译时能够更好地理解上下文。在本中,介绍了注意力机制的原理,以及如何利用注意力机制来提高 Seq2Seq 模型的性能。
Francek Chen6 个月前
人工智能·pytorch·深度学习·神经网络·注意力机制
【现代深度学习技术】注意力机制05:多头注意力【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现
Francek Chen6 个月前
人工智能·pytorch·深度学习·神经网络·注意力机制
【现代深度学习技术】注意力机制04:Bahdanau注意力【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现
flying_13146 个月前
人工智能·深度学习·神经网络·transformer·注意力机制
面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d首先先罗列几个参考文章,大家之后可以去看看,加深理解:好,步入正题,我们假定各位读者看过上面👆几篇文章,已经了解了,为什么自注意力机制中要使用 进行缩放,然后我们进一步进行探究,为什么不是 。