attention

KIDGINBROOK2 天前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
cyyt16 天前
深度学习·attention·量子计算
深度学习周报(9.22~9.28)目录摘要Abstract1 注意力机制1.1 背景及流程1.2 注意力分数1.3 Transformer
applebomb3 个月前
python·ubuntu·attention·flash
没合适的组合wheel包,就自行编译flash_attn吧不知道是不是也有很多小伙伴像我一样,经常一装机就把最新的cuda安装上去了。等装到组件时,才发现cuda和其它组件各种不适配。这次把nvcc直接装到12.8了,然后发现flash attn没有合适的wheel,就只能自己编译了。下面记录下我的编译过程:
CS创新实验室4 个月前
大模型·transformer·attention·注意力
研读论文《Attention Is All You Need》(17)7 ConclusionIn this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.
机器学习之心4 个月前
attention·cnn-bilstm·高光谱数据分类预测
分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测该MATLAB代码实现了一个结合CNN、BiLSTM和注意力机制的高光谱数据分类预测模型,核心功能如下:
机器学习之心5 个月前
matlab·attention·cnn-lstm-att·高光谱数据分类
分类预测 | Matlab实现CNN-LSTM-Attention高光谱数据分类代码功能 该MATLAB代码实现了一个结合CNN、LSTM和注意力机制的高光谱数据分类模型,核心功能如下:
我感觉。6 个月前
人工智能·深度学习·attention·self-attention
【深度学习—李宏毅教程笔记】各式各样的 Attention目录一、普通 Self-Attention 的痛点二、对 Self-Attention 的优化方式1、Local Attention / Truncated Attention
风筝超冷6 个月前
gpt·深度学习·attention
GPT - 多头注意力机制(Multi-Head Attention)模块本节代码实现了一个多头注意力机制(Multi-Head Attention)模块,它是Transformer架构中的核心组件之一。
机器学习之心6 个月前
回归·attention·cnn-gru·注意力机制多变量回归预测·rime-cnn-gru·霜冰优化卷积门控循环单元
回归预测 | Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测1.Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测;
机器学习之心7 个月前
matlab·分类·lstm·attention·bo-lstm
分类预测 | Matlab实现BO-LSTM-Attention多特征分类预测1.Matlab实现BO-LSTM-Attention贝叶斯优化长短期记忆神经网络融合注意力机制多特征分类预测,运行环境Matlab2023b及以上;
zbdx不知名菜鸡7 个月前
transformer·attention·概率论
self Attention为何除以根号dk?(全新角度)假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即: q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时,每个分量的均值为0,方差为1。
爱听歌的周童鞋7 个月前
attention·self-attention·flash attention
Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention,记录下个人学习笔记,仅供自己参考😄refer1:Flash Attention 为什么那么快?原理讲解
AINLPer7 个月前
attention
Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13
xidianjiapei0017 个月前
人工智能·深度学习·transformer·attention·论文解读
5分钟速览深度学习经典论文 —— attention is all you need《Attention is All You Need》是一篇极其重要的论文,它提出的 Transformer 模型和自注意力机制不仅推动了 NLP 领域的发展,还对整个深度学习领域产生了深远影响。这篇论文的重要性体现在其开创性、技术突破和广泛应用上,是每一位深度学习研究者和从业者必读的经典之作
爱听歌的周童鞋8 个月前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄
开出南方的花8 个月前
人工智能·pytorch·深度学习·机器学习·架构·nlp·attention
DeepSeek模型架构及优化内容DeepSeek LLM基本上遵循LLaMA的设计:采⽤Pre-Norm结构,并使⽤RMSNorm函数.
SpikeKing9 个月前
leetcode·llm·attention·multihead·groupquery·kvcache
LeetCode - Google 大模型校招10题 第1天 Attention 汇总 (3题)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145368666
机器学习之心9 个月前
attention·cnn-gru·woa-cnn-gru·四模型对比多变量时序预测
WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测基于WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型多变量时序预测一键对比(仅运行一个main即可)
机器学习之心10 个月前
回归·多输入单输出回归预测·attention·cnn-bilstm
回归预测 | MATLAB实现CNN-BiLSTM-Attention多输入单输出回归预测一、方法概述 CNN-BiLSTM-Attention多输入单输出回归预测方法旨在通过融合CNN的局部特征提取能力、BiLSTM的序列建模能力以及注意力机制的特征权重分配能力,实现对多输入特征的单输出回归预测。该方法适用于具有复杂特征依赖关系和时序特性的数据集。
Eshin_Ye10 个月前
笔记·学习·transformer·attention·注意力机制
transformer学习笔记-自注意力机制(1)自注意力机制,可以说是transformer中最核心的部分之一,注意力机制,主要是在处理序列数据时,根据序列数据提供的上下文环境信息识别需要关注的特征数据,注意力机制通常用于不同序列之间的交互,表示不同序列环境的相互影响,而自注意力机制,则更侧重单个序列数据内部个元素间的相互影响关系。–这段话不理解的话,没关系,先放着,且看下面分析: