技术栈
注意力机制
这张生成的图像能检测吗
10 天前
人工智能
·
计算机视觉
·
注意力机制
(论文速读)轴向变压器
论文题目:AXIAL ATTENTION IN MULTIDIMENSIONAL TRANSFORMERS(多维变压器的轴向注意)
深度之眼
13 天前
深度学习
·
机器学习
·
注意力机制
Science子刊超绝idea:注意力机制+强化学习!足式机器人障碍穿越首次达成 100% 成功率
近期,注意力机制+强化学习这个方向迎来了重磅突破。苏黎世联邦理工学院机器人系统实验室在《Science Robotics》(IF=26.1)中提出了一种创新的控制框架:
enjoy编程
19 天前
注意力机制
·
flashattention
·
kv cache
·
pd分离
·
pagedattention
·
epd分离
·
radixattention
Spring AI 大模型工程核心:效率的极限博弈
大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
deephub
19 天前
人工智能
·
深度学习
·
神经网络
·
transformer
·
注意力机制
Mosaic:面向超长序列的多GPU注意力分片方案
Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分片方案的设计思路。
minhuan
24 天前
人工智能
·
深度学习
·
机器学习
·
注意力机制
大模型应用:多尺度注意力解析:大模型特征提取的基础概念与应用价值.43
在大模型的特征提取技术中,注意力机制是核心支柱,它让模型能聚焦关键信息。但传统单尺度注意力存在明显短板,要么只盯着局部细节,忽略全局逻辑;要么只抓整体框架,丢失关键信息。
这张生成的图像能检测吗
1 个月前
人工智能
·
深度学习
·
神经网络
·
图神经网络
·
注意力机制
(论文速读)GAT:图注意神经网络
论文题目:Graph Attention Networks (图注意神经网络)会议:ICLR2018摘要:我们提出了图注意网络(GATs),这是一种新颖的神经网络架构,可以在图结构数据上运行,利用隐藏的自注意层来解决基于图卷积或其近似的先前方法的缺点。通过堆叠层,其中的节点能够参与其邻居的特征,我们可以(隐式地)为邻居中的不同节点指定不同的权重,而不需要任何昂贵的矩阵操作(例如反转)或依赖于预先知道的图结构。通过这种方式,我们同时解决了基于频谱的图神经网络的几个关键挑战,并使我们的模型很容易适用于感应和转
@鱼香肉丝没有鱼
1 个月前
人工智能
·
深度学习
·
transformer
·
注意力机制
Transformer原理—注意力机制
Transformer模型,作为自然语言处理(NLP)领域的一块重要里程碑,于2017年由Google的研究者们提出,现在成为深度学习中对文本和语言数据处理具有根本性影响的架构之一。在NLP的宇宙中,如果说RNN、LSTM等神经网络创造了“序列记忆”的能力,那么Transformer则彻底颠覆了这种“记忆”的处理方式——它放弃了传统的顺序操作,而是通过自注意力机制(Self-Attention),赋予模型一种全新的、并行化的信息理解和处理方式。从自注意力的直观概念出发,Transformer的设计者们引进
陈 洪 伟
1 个月前
transformer
·
注意力机制
Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力
目录1 注意力机制为什么用多头的2 多头注意力的实际数学计算解释2.1 误区1:多头就是直接把512分成8组
盼小辉丶
2 个月前
pytorch
·
图神经网络
·
注意力机制
·
图注意力网络
PyTorch实战(14)——图注意力网络(Graph Attention Network,GAT)
我们已经通过使用图卷积网络 (Graph Convolutional Network, GCN) 模型在节点分类任务上具备了超越了基线多层感知机 (Multilayer Perceptron, MLP) 模型的性能。在本节中,我们将通过将 GCN 模型替换为图注意力网络 (Graph Attention Network, GAT) 模型来进一步提高分类准确率,核心改进在于将邻域节点信息平均聚合机制替换为注意力机制。接下来,将基于 GCN 的解决方案重构为基于 GAT 的解决方案。
远瞻。
2 个月前
pip
·
注意力机制
【环境部署】安装flash-attention
pip 安装失败,需要官方下载whl,离线安装,下载地址
AndrewHZ
2 个月前
图像处理
·
pytorch
·
深度学习
·
算法
·
计算机视觉
·
注意力机制
·
通道注意力
【图像处理基石】什么是图像处理中的注意力机制?
大家好!今天我们来聊聊计算机视觉(CV)领域里一个“让模型更聪明”的核心技术——注意力机制。如果你刚接触图像处理,或者想搞懂为什么有些模型(比如ResNet+注意力)效果比普通CNN好,这篇入门博客会带你一步步理清思路,最后还会附上简单的代码实现,帮你快速上手。
一勺汤
2 个月前
yolo
·
注意力机制
·
遮挡
·
yolo11
·
yolo11改进
·
小目标
·
scsa
YOLO11 改进、魔改| 空间与通道协同注意力模块SCSA,通过空间与通道注意力的协同作用,提升视觉任务的特征提取能力与泛化性能。
现有即插即用注意力机制多分为通道注意力、空间注意力及混合注意力三类,但普遍存在两大局限:一是未能充分利用特征中固有的多语义空间信息,难以有效引导空间和通道维度的关键特征提取;二是对特征图间多语义信息导致的语义差异和交互问题处理不足,限制了其在检测、分割等细粒度任务中的适配性。为解决这些问题,SCSA 聚焦维度解耦、轻量化多语义引导和语义差异缓解,探索空间与通道注意力的协同关系。
安如衫
2 个月前
笔记
·
深度学习
·
学习
·
机器学习
·
注意力机制
【机器学习基础】Attention in Transformers:注意力机制
大型语言模型(LLM)的发展并非一蹴而就。其思想源头可追溯至1966年的聊天机器人ELIZA,而1997年长短期记忆(LSTM)网络的诞生,则为模型处理序列数据和学习文本规律奠定了基础。不过,RNN 一个显著缺点是无法无法在时间步上并行(当前时刻依赖上一个时刻)。
潘帕斯的雄鹰
3 个月前
python
·
transformer
·
注意力机制
·
自注意力机制
直观理解注意力机制
传统的注意力机制在encoder-decoder架构中提出,是decoder在做输出预测的时候,考虑encoder中的输入,而不仅仅考虑当前的状态。这样优化了传统RNN模型随着序列增加信息丢失的问题。 传统注意力机制的QKV来自于跨序列,即K/V来自编码器中的输入向量,Q来自解码器中的输出向量。
Mr.zwX
3 个月前
大模型
·
注意力机制
·
gpt-oss
GPT-OSS大模型Attention架构设计
大模型推理时,在大部分层上能观察到注意力很大程度关注到开头的几个token上,在StreamingLLM中被称为attention sink。究其原因,并不是开头的token一定最重要,而是当大模型无法有效关注到主要token时,由于开头的token能被后面所有token看到,所以表现出很高的attention score。
提娜米苏
3 个月前
rnn
·
注意力机制
注意力机制:Jointly Learning to Align and Translate中从双向RNN编码器到软对齐的完整流程
论文标题“Jointly Learning to Align and Translate”点明了其核心贡献:模型在一个统一的框架内,同时学习翻译任务和源语言与目标语言之间的词语对齐关系。这种对齐是通过注意力权重 αij 隐式学习得到的,它量化了在生成目标词 yi 时,对源词 xj 的关注程度。
m0_65010824
3 个月前
注意力机制
·
论文精读
·
mamba架构
·
视频生产
·
潜扩散模型
·
时空建模
【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式
标题:Matten: Video Generation with Mamba-Attention作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)
flying_1314
3 个月前
人工智能
·
神经网络
·
图神经网络
·
注意力机制
·
gnn
·
gat
·
图注意力网络
图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)
目录一、摘要图注意力网络(GAT)技术优势核心创新二、介绍提出了一种新型神经网络架构——图注意力网络(GAT),该架构基于图结构数据运行,通过掩码自注意力层解决传统图卷积方法及其近似算法的局限性。通过堆叠多层注意力机制,模型使节点能够自适应地关注邻居节点的特征,并隐式地为不同邻居节点分配差异化权重。这一设计无需依赖昂贵的矩阵运算(如求逆),也无需预先了解完整的图结构信息。
远上寒山
3 个月前
大模型
·
注意力机制
·
flash_attention
·
online softmax
·
shared memory
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s
关键词:IO-aware、在线 Softmax(online softmax)、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3
m0_65010824
4 个月前
注意力机制
·
跨域泛化
·
小样本目标检测(fsod)
·
rpn
·
多关系检测器
·
对比训练
·
支持集与查询集
【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
论文标题:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 作者:Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai 发表会议:CVPR 2020 论文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_