attention

没合适的组合wheel包，就自行编译flash_attn吧不知道是不是也有很多小伙伴像我一样，经常一装机就把最新的cuda安装上去了。等装到组件时，才发现cuda和其它组件各种不适配。这次把nvcc直接装到12.8了，然后发现flash attn没有合适的wheel，就只能自己编译了。下面记录下我的编译过程：

CS创新实验室

研读论文《Attention Is All You Need》（17）7 ConclusionIn this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.

机器学习之心

分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测该MATLAB代码实现了一个结合CNN、BiLSTM和注意力机制的高光谱数据分类预测模型，核心功能如下：

机器学习之心

分类预测 | Matlab实现CNN-LSTM-Attention高光谱数据分类代码功能该MATLAB代码实现了一个结合CNN、LSTM和注意力机制的高光谱数据分类模型，核心功能如下：

【深度学习—李宏毅教程笔记】各式各样的 Attention目录一、普通 Self-Attention 的痛点二、对 Self-Attention 的优化方式1、Local Attention / Truncated Attention

GPT - 多头注意力机制（Multi-Head Attention）模块本节代码实现了一个多头注意力机制（Multi-Head Attention）模块，它是Transformer架构中的核心组件之一。

机器学习之心

回归预测 | Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测1.Matlab实现RIME-CNN-GRU-Attention霜冰优化卷积门控循环单元注意力机制多变量回归预测；

机器学习之心

分类预测 | Matlab实现BO-LSTM-Attention多特征分类预测1.Matlab实现BO-LSTM-Attention贝叶斯优化长短期记忆神经网络融合注意力机制多特征分类预测，运行环境Matlab2023b及以上；

zbdx不知名菜鸡

self Attention为何除以根号dk？（全新角度）假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量，且服从标准正态分布，即： q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时，每个分量的均值为0，方差为1。

爱听歌的周童鞋

Flash Attention原理讲解看了几个视频和几篇文章学习了下 Flash Attention，记录下个人学习笔记，仅供自己参考😄refer1：Flash Attention 为什么那么快？原理讲解

Attention又升级！Moonshot | 提出MoE注意力架构：MoBA，提升LLM长文本推理效率源自: AINLPer（每日干货分享！！）编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13

xidianjiapei001

5分钟速览深度学习经典论文 —— attention is all you need《Attention is All You Need》是一篇极其重要的论文，它提出的 Transformer 模型和自注意力机制不仅推动了 NLP 领域的发展，还对整个深度学习领域产生了深远影响。这篇论文的重要性体现在其开创性、技术突破和广泛应用上，是每一位深度学习研究者和从业者必读的经典之作

爱听歌的周童鞋

DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块，究极缝合怪，东抄抄西抄抄，主要 copy 自苏神的文章，仅供自己参考😄

开出南方的花

DeepSeek模型架构及优化内容DeepSeek LLM基本上遵循LLaMA的设计：采⽤Pre-Norm结构，并使⽤RMSNorm函数.

LeetCode - Google 大模型校招10题第1天 Attention 汇总 (3题)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/145368666

机器学习之心

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测基于WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型多变量时序预测一键对比(仅运行一个main即可)

机器学习之心

回归预测 | MATLAB实现CNN-BiLSTM-Attention多输入单输出回归预测一、方法概述 CNN-BiLSTM-Attention多输入单输出回归预测方法旨在通过融合CNN的局部特征提取能力、BiLSTM的序列建模能力以及注意力机制的特征权重分配能力，实现对多输入特征的单输出回归预测。该方法适用于具有复杂特征依赖关系和时序特性的数据集。

transformer学习笔记-自注意力机制（1）自注意力机制，可以说是transformer中最核心的部分之一，注意力机制，主要是在处理序列数据时，根据序列数据提供的上下文环境信息识别需要关注的特征数据，注意力机制通常用于不同序列之间的交互，表示不同序列环境的相互影响，而自注意力机制，则更侧重单个序列数据内部个元素间的相互影响关系。–这段话不理解的话，没关系，先放着，且看下面分析：

YangJZ_ByteMaster

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images本文介绍了一种名为PETRv2的统一框架，用于从多视图图像中进行三维感知。该框架基于先前提出的PETR框架，并探索了时间建模的有效性，利用前一帧的时间信息来提高三维物体检测效果。作者在PETR的基础上扩展了三维位置嵌入（3D PE），以实现不同帧对象位置之间的时间对齐，并引入了一个特征引导的位置编码器来改善3D PE的数据适应性。为了支持多任务学习（如BEV分割和三维车道检测），PETRv2提供了简单而有效的解决方案，通过引入特定于任务的查询，在不同的空间下初始化。实验结果表明，PETRv2在三维物体检测

机器学习之心

顶刊算法 | 鱼鹰算法OOA-BiTCN-BiGRU-Attention多输入单输出回归预测（Maltab）1.Matlab实现OOA-BiTCN-BiGRU-Attention鱼鹰算法优化双向时间卷积双向门控循环单元融合注意力机制多变量回归预测（完整源码和数据），优化学习率，BiGRU的神经元个数，滤波器个数, 正则化参数； 2.输入多个特征，输出单个变量，回归预测，自注意力机制层，运行环境matlab2023及以上； 3.命令窗口输出R2、MAE、MAPE、 RMSE多指标评价； 4.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 5.适用对象：大学生课程设计、期末大作业和毕业设计。模型