attention

机器学习之心4 天前
matlab·分类·lstm·attention·bo-lstm
分类预测 | Matlab实现BO-LSTM-Attention多特征分类预测1.Matlab实现BO-LSTM-Attention贝叶斯优化长短期记忆神经网络融合注意力机制多特征分类预测,运行环境Matlab2023b及以上;
zbdx不知名菜鸡6 天前
transformer·attention·概率论
self Attention为何除以根号dk?(全新角度)假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即: q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时,每个分量的均值为0,方差为1。
爱听歌的周童鞋11 天前
attention·self-attention·flash attention
Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention,记录下个人学习笔记,仅供自己参考😄refer1:Flash Attention 为什么那么快?原理讲解
AINLPer14 天前
attention
Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13
xidianjiapei00121 天前
人工智能·深度学习·transformer·attention·论文解读
5分钟速览深度学习经典论文 —— attention is all you need《Attention is All You Need》是一篇极其重要的论文,它提出的 Transformer 模型和自注意力机制不仅推动了 NLP 领域的发展,还对整个深度学习领域产生了深远影响。这篇论文的重要性体现在其开创性、技术突破和广泛应用上,是每一位深度学习研究者和从业者必读的经典之作
爱听歌的周童鞋25 天前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄
开出南方的花2 个月前
人工智能·pytorch·深度学习·机器学习·架构·nlp·attention
DeepSeek模型架构及优化内容DeepSeek LLM基本上遵循LLaMA的设计:采⽤Pre-Norm结构,并使⽤RMSNorm函数.
SpikeKing2 个月前
leetcode·llm·attention·multihead·groupquery·kvcache
LeetCode - Google 大模型校招10题 第1天 Attention 汇总 (3题)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145368666
机器学习之心2 个月前
attention·cnn-gru·woa-cnn-gru·四模型对比多变量时序预测
WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测基于WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型多变量时序预测一键对比(仅运行一个main即可)
机器学习之心3 个月前
回归·多输入单输出回归预测·attention·cnn-bilstm
回归预测 | MATLAB实现CNN-BiLSTM-Attention多输入单输出回归预测一、方法概述 CNN-BiLSTM-Attention多输入单输出回归预测方法旨在通过融合CNN的局部特征提取能力、BiLSTM的序列建模能力以及注意力机制的特征权重分配能力,实现对多输入特征的单输出回归预测。该方法适用于具有复杂特征依赖关系和时序特性的数据集。
Eshin_Ye4 个月前
笔记·学习·transformer·attention·注意力机制
transformer学习笔记-自注意力机制(1)自注意力机制,可以说是transformer中最核心的部分之一,注意力机制,主要是在处理序列数据时,根据序列数据提供的上下文环境信息识别需要关注的特征数据,注意力机制通常用于不同序列之间的交互,表示不同序列环境的相互影响,而自注意力机制,则更侧重单个序列数据内部个元素间的相互影响关系。–这段话不理解的话,没关系,先放着,且看下面分析:
YangJZ_ByteMaster4 个月前
人工智能·深度学习·3d·transformer·attention
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images本文介绍了一种名为PETRv2的统一框架,用于从多视图图像中进行三维感知。该框架基于先前提出的PETR框架,并探索了时间建模的有效性,利用前一帧的时间信息来提高三维物体检测效果。作者在PETR的基础上扩展了三维位置嵌入(3D PE),以实现不同帧对象位置之间的时间对齐,并引入了一个特征引导的位置编码器来改善3D PE的数据适应性。为了支持多任务学习(如BEV分割和三维车道检测),PETRv2提供了简单而有效的解决方案,通过引入特定于任务的查询,在不同的空间下初始化。实验结果表明,PETRv2在三维物体检测
机器学习之心4 个月前
人工智能·深度学习·回归·多输入单输出回归预测·attention·ooa-bitcn-bigru
顶刊算法 | 鱼鹰算法OOA-BiTCN-BiGRU-Attention多输入单输出回归预测(Maltab)1.Matlab实现OOA-BiTCN-BiGRU-Attention鱼鹰算法优化双向时间卷积双向门控循环单元融合注意力机制多变量回归预测(完整源码和数据),优化学习率,BiGRU的神经元个数,滤波器个数, 正则化参数; 2.输入多个特征,输出单个变量,回归预测,自注意力机制层,运行环境matlab2023及以上; 3.命令窗口输出R2、MAE、MAPE、 RMSE多指标评价; 4.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 5.适用对象:大学生课程设计、期末大作业和毕业设计。模型
LinKouun4 个月前
论文阅读·人工智能·语言模型·transformer·attention·模型压缩·注意力机制
论文笔记 SliceGPT: Compress Large Language Models By Deleting Rows And Columns欲买桂花同载酒,终不似,少年游。秩: 矩阵中最大线性无关的行/列向量数。行秩与列秩相等。 线性无关:对于N个向量而言,如果任取一个向量 v \textbf{v} v,不能被剩下的N-1个向量通过线性组合的方式表示,则称这N个向量为线性无关。
胖哥真不错5 个月前
python·tensorflow·attention·项目实战·bilstm·双向长短时记忆循环神经网络·注意力机制回归模型
Python基于TensorFlow实现双向长短时记忆循环神经网络加注意力机制回归模型(BiLSTM-Attention回归算法)项目实战说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后关注获取。
胖哥真不错5 个月前
python·tensorflow·attention·项目实战·bigru·双向循环神经网络gru·注意力机制分类模型
Python基于TensorFlow实现双向循环神经网络GRU加注意力机制分类模型(BiGRU-Attention分类算法)项目实战说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后关注获取。
机器学习之心5 个月前
人工智能·matlab·lstm·attention·多变量时间序列预测·ssa-tcn-lstm
SCI一区级 | Matlab实现SSA-TCN-LSTM-Attention多变量时间序列预测1.基于SSA-TCN-LSTM-Attention麻雀搜索算法优化时间卷积长短期记忆神经网络融合注意力机制多变量时间序列预测,要求Matlab2023版以上,自注意力机制,一键单头注意力机制替换成多头注意力机制;
CS_木成河7 个月前
人工智能·gpt·深度学习·transformer·openai·attention·mlp
【HuggingFace Transformers】OpenAIGPTModel的核心——Block源码解析在 GPT 模型中,Block 是 Transformer 架构的核心组成部分。每个 Block 主要由三个部分构成:Attention、MLP以及两个Layer Norm。首先,Attention 层负责计算输入中各位置之间的注意力权重,并生成加权的表示。接着,将Attention 的输出与输入进行残差连接,并通过第一个Layer Norm层进行层归一化,形成中间状态。随后,MLP 层进一步处理这些中间状态,通过激活函数引入非线性变换。最后将MLP 层的输出和输入进行残差连接,并通过第二个Layer N
SpikeKing7 个月前
gpt·attention·公式·矩阵乘法·kv cache·decoderonly·键值缓存
LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141605718
逐梦苍穹7 个月前
人工智能·自然语言处理·attention·注意力机制
【NLP】注意力机制:规则、作用、原理、实现方式🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用开发、数据结构和算法,初步涉猎人工智能和前端开发。 🦅个人主页:@逐梦苍穹 📕所属专栏:人工智能 🌻gitee地址:xzl的人工智能代码仓库 ✈ 您的一键三连,是我创作的最大动力🌹