attention

云雾J视界9 天前
算法·google·bert·transformer·attention·算法治理
当算法试图解决一切:技术解决方案主义的诱惑与陷阱目录一、 理想主义的蓝图:当Google试图用算法定义“优质”信息二、 表象的成功与本质的回避:当“优质”成为一个黑箱
Aspect of twilight12 天前
人工智能·attention
各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解参考文章:DeepSeek-V2:减小KV head的数量,多个Query head共用一个KV head
菠菠萝宝1 个月前
人工智能·深度学习·大模型·llm·nlp·attention·llama
【AI应用探索】-7- LLaMA-Factory微调模型我们统一使用conda来管理我们的python环境创建python环境为3.10的conda环境并激活
KIDGINBROOK2 个月前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
cyyt3 个月前
深度学习·attention·量子计算
深度学习周报(9.22~9.28)目录摘要Abstract1 注意力机制1.1 背景及流程1.2 注意力分数1.3 Transformer
applebomb5 个月前
python·ubuntu·attention·flash
没合适的组合wheel包,就自行编译flash_attn吧不知道是不是也有很多小伙伴像我一样,经常一装机就把最新的cuda安装上去了。等装到组件时,才发现cuda和其它组件各种不适配。这次把nvcc直接装到12.8了,然后发现flash attn没有合适的wheel,就只能自己编译了。下面记录下我的编译过程:
CS创新实验室6 个月前
大模型·transformer·attention·注意力
研读论文《Attention Is All You Need》(17)7 ConclusionIn this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.
机器学习之心6 个月前
attention·cnn-bilstm·高光谱数据分类预测
分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测该MATLAB代码实现了一个结合CNN、BiLSTM和注意力机制的高光谱数据分类预测模型,核心功能如下:
机器学习之心7 个月前
matlab·attention·cnn-lstm-att·高光谱数据分类
分类预测 | Matlab实现CNN-LSTM-Attention高光谱数据分类代码功能 该MATLAB代码实现了一个结合CNN、LSTM和注意力机制的高光谱数据分类模型,核心功能如下:
我感觉。8 个月前
人工智能·深度学习·attention·self-attention
【深度学习—李宏毅教程笔记】各式各样的 Attention目录一、普通 Self-Attention 的痛点二、对 Self-Attention 的优化方式1、Local Attention / Truncated Attention
风筝超冷8 个月前
gpt·深度学习·attention
GPT - 多头注意力机制(Multi-Head Attention)模块本节代码实现了一个多头注意力机制(Multi-Head Attention)模块,它是Transformer架构中的核心组件之一。
机器学习之心8 个月前
回归·attention·cnn-gru·注意力机制多变量回归预测·rime-cnn-gru·霜冰优化卷积门控循环单元
回归预测 | Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测1.Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测;
机器学习之心9 个月前
matlab·分类·lstm·attention·bo-lstm
分类预测 | Matlab实现BO-LSTM-Attention多特征分类预测1.Matlab实现BO-LSTM-Attention贝叶斯优化长短期记忆神经网络融合注意力机制多特征分类预测,运行环境Matlab2023b及以上;
zbdx不知名菜鸡9 个月前
transformer·attention·概率论
self Attention为何除以根号dk?(全新角度)假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即: q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时,每个分量的均值为0,方差为1。
爱听歌的周童鞋9 个月前
attention·self-attention·flash attention
Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention,记录下个人学习笔记,仅供自己参考😄refer1:Flash Attention 为什么那么快?原理讲解
AINLPer9 个月前
attention
Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13
xidianjiapei0019 个月前
人工智能·深度学习·transformer·attention·论文解读
5分钟速览深度学习经典论文 —— attention is all you need《Attention is All You Need》是一篇极其重要的论文,它提出的 Transformer 模型和自注意力机制不仅推动了 NLP 领域的发展,还对整个深度学习领域产生了深远影响。这篇论文的重要性体现在其开创性、技术突破和广泛应用上,是每一位深度学习研究者和从业者必读的经典之作
爱听歌的周童鞋10 个月前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄
开出南方的花10 个月前
人工智能·pytorch·深度学习·机器学习·架构·nlp·attention
DeepSeek模型架构及优化内容DeepSeek LLM基本上遵循LLaMA的设计:采⽤Pre-Norm结构,并使⽤RMSNorm函数.
SpikeKing1 年前
leetcode·llm·attention·multihead·groupquery·kvcache
LeetCode - Google 大模型校招10题 第1天 Attention 汇总 (3题)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145368666