attention

沅_Yuan1 天前
机器学习·回归·cnn·lstm·attention·核密度估计·kde
基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】在深度学习时间序列预测与回归分析中,传统的模型往往只能给出一个确定的“点预测”结果(例如:预测明天的温度是25度)。然而,在许多高风险的工程和金融场景中,我们不仅需要知道预测值是多少,还需要知道这个预测值的可靠程度(例如:明天温度在23度到27度之间的概率是90%)。
bryant_meng16 天前
人工智能·深度学习·自然语言处理·attention·seq2seq
【NLP】《The Evolution of NLP: Understanding RNNs, Seq2Seq, and Attention》Attention 最初是为了打破 RNN 在 Seq2Seq 任务中的瓶颈而诞生的。Seq2Seq (序列到序列:一种任务类型)
Sakuraba Ema19 天前
python·llm·attention
Attention Residuals:把固定残差换成“跨层注意力”这篇博客讲解论文 Attention Residuals,重点回答四个问题:在现代 Transformer / LLM 中,PreNorm 残差连接是标准做法。 最经典的写法是:
被制作时长两年半的个人练习生3 个月前
attention·cuda
【FlashAttention】 FA2与FA1算法区别辨析看了几篇关于FlashAttention2的文章,对于其中移除冗余的CUDA操作这个算法优化进行了一个综合梳理。 https://zhuanlan.zhihu.com/p/1993815603383902344 https://zhuanlan.zhihu.com/p/668888063 https://zhuanlan.zhihu.com/p/665170554
云雾J视界4 个月前
算法·google·bert·transformer·attention·算法治理
当算法试图解决一切:技术解决方案主义的诱惑与陷阱目录一、 理想主义的蓝图:当Google试图用算法定义“优质”信息二、 表象的成功与本质的回避:当“优质”成为一个黑箱
Aspect of twilight4 个月前
人工智能·attention
各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解参考文章:DeepSeek-V2:减小KV head的数量,多个Query head共用一个KV head
菠菠萝宝5 个月前
人工智能·深度学习·大模型·llm·nlp·attention·llama
【AI应用探索】-7- LLaMA-Factory微调模型我们统一使用conda来管理我们的python环境创建python环境为3.10的conda环境并激活
KIDGINBROOK6 个月前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
cyyt6 个月前
深度学习·attention·量子计算
深度学习周报(9.22~9.28)目录摘要Abstract1 注意力机制1.1 背景及流程1.2 注意力分数1.3 Transformer
applebomb9 个月前
python·ubuntu·attention·flash
没合适的组合wheel包,就自行编译flash_attn吧不知道是不是也有很多小伙伴像我一样,经常一装机就把最新的cuda安装上去了。等装到组件时,才发现cuda和其它组件各种不适配。这次把nvcc直接装到12.8了,然后发现flash attn没有合适的wheel,就只能自己编译了。下面记录下我的编译过程:
CS创新实验室10 个月前
大模型·transformer·attention·注意力
研读论文《Attention Is All You Need》(17)7 ConclusionIn this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.
机器学习之心10 个月前
attention·cnn-bilstm·高光谱数据分类预测
分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测该MATLAB代码实现了一个结合CNN、BiLSTM和注意力机制的高光谱数据分类预测模型,核心功能如下:
机器学习之心10 个月前
matlab·attention·cnn-lstm-att·高光谱数据分类
分类预测 | Matlab实现CNN-LSTM-Attention高光谱数据分类代码功能 该MATLAB代码实现了一个结合CNN、LSTM和注意力机制的高光谱数据分类模型,核心功能如下:
我感觉。1 年前
人工智能·深度学习·attention·self-attention
【深度学习—李宏毅教程笔记】各式各样的 Attention目录一、普通 Self-Attention 的痛点二、对 Self-Attention 的优化方式1、Local Attention / Truncated Attention
风筝超冷1 年前
gpt·深度学习·attention
GPT - 多头注意力机制(Multi-Head Attention)模块本节代码实现了一个多头注意力机制(Multi-Head Attention)模块,它是Transformer架构中的核心组件之一。
机器学习之心1 年前
回归·attention·cnn-gru·注意力机制多变量回归预测·rime-cnn-gru·霜冰优化卷积门控循环单元
回归预测 | Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测1.Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测;
机器学习之心1 年前
matlab·分类·lstm·attention·bo-lstm
分类预测 | Matlab实现BO-LSTM-Attention多特征分类预测1.Matlab实现BO-LSTM-Attention贝叶斯优化长短期记忆神经网络融合注意力机制多特征分类预测,运行环境Matlab2023b及以上;
zbdx不知名菜鸡1 年前
transformer·attention·概率论
self Attention为何除以根号dk?(全新角度)假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即: q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时,每个分量的均值为0,方差为1。
爱听歌的周童鞋1 年前
attention·self-attention·flash attention
Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention,记录下个人学习笔记,仅供自己参考😄refer1:Flash Attention 为什么那么快?原理讲解
AINLPer1 年前
attention
Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13