attention

CS创新实验室17 天前
大模型·transformer·attention·注意力
研读论文《Attention Is All You Need》(17)7 ConclusionIn this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.
机器学习之心1 个月前
attention·cnn-bilstm·高光谱数据分类预测
分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测该MATLAB代码实现了一个结合CNN、BiLSTM和注意力机制的高光谱数据分类预测模型,核心功能如下:
机器学习之心1 个月前
matlab·attention·cnn-lstm-att·高光谱数据分类
分类预测 | Matlab实现CNN-LSTM-Attention高光谱数据分类代码功能 该MATLAB代码实现了一个结合CNN、LSTM和注意力机制的高光谱数据分类模型,核心功能如下:
我感觉。3 个月前
人工智能·深度学习·attention·self-attention
【深度学习—李宏毅教程笔记】各式各样的 Attention目录一、普通 Self-Attention 的痛点二、对 Self-Attention 的优化方式1、Local Attention / Truncated Attention
风筝超冷3 个月前
gpt·深度学习·attention
GPT - 多头注意力机制(Multi-Head Attention)模块本节代码实现了一个多头注意力机制(Multi-Head Attention)模块,它是Transformer架构中的核心组件之一。
机器学习之心3 个月前
回归·attention·cnn-gru·注意力机制多变量回归预测·rime-cnn-gru·霜冰优化卷积门控循环单元
回归预测 | Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测1.Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测;
机器学习之心3 个月前
matlab·分类·lstm·attention·bo-lstm
分类预测 | Matlab实现BO-LSTM-Attention多特征分类预测1.Matlab实现BO-LSTM-Attention贝叶斯优化长短期记忆神经网络融合注意力机制多特征分类预测,运行环境Matlab2023b及以上;
zbdx不知名菜鸡4 个月前
transformer·attention·概率论
self Attention为何除以根号dk?(全新角度)假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即: q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时,每个分量的均值为0,方差为1。
爱听歌的周童鞋4 个月前
attention·self-attention·flash attention
Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention,记录下个人学习笔记,仅供自己参考😄refer1:Flash Attention 为什么那么快?原理讲解
AINLPer4 个月前
attention
Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13
xidianjiapei0014 个月前
人工智能·深度学习·transformer·attention·论文解读
5分钟速览深度学习经典论文 —— attention is all you need《Attention is All You Need》是一篇极其重要的论文,它提出的 Transformer 模型和自注意力机制不仅推动了 NLP 领域的发展,还对整个深度学习领域产生了深远影响。这篇论文的重要性体现在其开创性、技术突破和广泛应用上,是每一位深度学习研究者和从业者必读的经典之作
爱听歌的周童鞋4 个月前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄
开出南方的花5 个月前
人工智能·pytorch·深度学习·机器学习·架构·nlp·attention
DeepSeek模型架构及优化内容DeepSeek LLM基本上遵循LLaMA的设计:采⽤Pre-Norm结构,并使⽤RMSNorm函数.
SpikeKing5 个月前
leetcode·llm·attention·multihead·groupquery·kvcache
LeetCode - Google 大模型校招10题 第1天 Attention 汇总 (3题)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145368666
机器学习之心6 个月前
attention·cnn-gru·woa-cnn-gru·四模型对比多变量时序预测
WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测基于WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型多变量时序预测一键对比(仅运行一个main即可)
机器学习之心6 个月前
回归·多输入单输出回归预测·attention·cnn-bilstm
回归预测 | MATLAB实现CNN-BiLSTM-Attention多输入单输出回归预测一、方法概述 CNN-BiLSTM-Attention多输入单输出回归预测方法旨在通过融合CNN的局部特征提取能力、BiLSTM的序列建模能力以及注意力机制的特征权重分配能力,实现对多输入特征的单输出回归预测。该方法适用于具有复杂特征依赖关系和时序特性的数据集。
Eshin_Ye7 个月前
笔记·学习·transformer·attention·注意力机制
transformer学习笔记-自注意力机制(1)自注意力机制,可以说是transformer中最核心的部分之一,注意力机制,主要是在处理序列数据时,根据序列数据提供的上下文环境信息识别需要关注的特征数据,注意力机制通常用于不同序列之间的交互,表示不同序列环境的相互影响,而自注意力机制,则更侧重单个序列数据内部个元素间的相互影响关系。–这段话不理解的话,没关系,先放着,且看下面分析:
YangJZ_ByteMaster7 个月前
人工智能·深度学习·3d·transformer·attention
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images本文介绍了一种名为PETRv2的统一框架,用于从多视图图像中进行三维感知。该框架基于先前提出的PETR框架,并探索了时间建模的有效性,利用前一帧的时间信息来提高三维物体检测效果。作者在PETR的基础上扩展了三维位置嵌入(3D PE),以实现不同帧对象位置之间的时间对齐,并引入了一个特征引导的位置编码器来改善3D PE的数据适应性。为了支持多任务学习(如BEV分割和三维车道检测),PETRv2提供了简单而有效的解决方案,通过引入特定于任务的查询,在不同的空间下初始化。实验结果表明,PETRv2在三维物体检测
机器学习之心7 个月前
人工智能·深度学习·回归·多输入单输出回归预测·attention·ooa-bitcn-bigru
顶刊算法 | 鱼鹰算法OOA-BiTCN-BiGRU-Attention多输入单输出回归预测(Maltab)1.Matlab实现OOA-BiTCN-BiGRU-Attention鱼鹰算法优化双向时间卷积双向门控循环单元融合注意力机制多变量回归预测(完整源码和数据),优化学习率,BiGRU的神经元个数,滤波器个数, 正则化参数; 2.输入多个特征,输出单个变量,回归预测,自注意力机制层,运行环境matlab2023及以上; 3.命令窗口输出R2、MAE、MAPE、 RMSE多指标评价; 4.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 5.适用对象:大学生课程设计、期末大作业和毕业设计。模型
LinKouun7 个月前
论文阅读·人工智能·语言模型·transformer·attention·模型压缩·注意力机制
论文笔记 SliceGPT: Compress Large Language Models By Deleting Rows And Columns欲买桂花同载酒,终不似,少年游。秩: 矩阵中最大线性无关的行/列向量数。行秩与列秩相等。 线性无关:对于N个向量而言,如果任取一个向量 v \textbf{v} v,不能被剩下的N-1个向量通过线性组合的方式表示,则称这N个向量为线性无关。