attention

西西弗Sisyphus6 天前
transformer·attention·unsqueeze·self-attention·残差·residual·squeeze
从零实现Transformer:第 4 部分 - Residual Connection的两种实现 Pre-LN 和 Post-LNflyfishPre-LN = Pre-Layer Normalization Post-LN = Post-Layer Normalization
西西弗Sisyphus7 天前
transformer·attention·注意力机制·注意力·decoder·self-attention
从零实现Transformer:第 9 部分 - 推理(Inference )文本转张量 → 编码器编码一次 → 解码器从 SOS 开始 → 循环逐词贪心生成 → 遇到 EOS 停止 → 张量转回文本
机器学习之心7 天前
matlab·attention·bilstm·车速预测
多工况车速数据集训练BiLSTM-Attention用于车速预测,输出未来多个时间步车速,MATLAB代码车辆速度预测是智能交通系统、新能源汽车能量管理、驾驶辅助系统等领域的关键技术。传统方法(如马尔可夫链、ARIMA)难以捕捉复杂的时间依赖性和非线性特征。近年来,深度学习模型(如LSTM、BiLSTM、Attention机制)在时间序列预测中表现优异。本代码基于 BiLSTM + 自注意力机制,实现对不同驾驶工况(如NEDC、UDDS、WLTC)下车速的多步预测。
机器学习之心12 天前
回归·cnn·attention·cnn-xlstm
CNN-xLSTM-Attention 回归模型:从原理到 SHAP 可解释性全解析融合卷积、长短期记忆与注意力机制,让时间序列预测同时做到高精度与高解释性。在工业预测、故障诊断、能源负荷预测等任务中,我们经常需要处理结构复杂的表格型时间序列数据。今天,我们深入一种新颖的混合深度学习架构——CNN-xLSTM-Attention,并配合 SHAP 可解释性分析,在实现高精度回归的同时,让模型决策过程一目了然。
庞轩px16 天前
人工智能·rnn·深度学习·transformer·attention·q-k-v
Transformer的核心思想——Attention机制直观理解在上一篇中,我们理解了Embedding如何把文字变成向量。但光有向量还不够——大模型需要"读懂"一句话里各个词之间的关系。比如:
索木木17 天前
人工智能·机器学习·大模型·attention·训练·显存优化·aiinfra
Flash Attention反向梯度优化显存前面我有文章介绍子Flash Attention 针对长序列的正向优化,而其反向算子(Backward Pass)的优化由于涉及到复杂的梯度重计算和显存权衡,往往比正向过程更具挑战性。
西西弗Sisyphus17 天前
resnet·transformer·attention·注意力机制·注意力
从零实现Transformer:第 4 部分 - 残差连接、层归一化与前馈网络(Add & Norm, Feed-Forward)flyfish本部分的完整代码在文末主要用于和其他的图做参考 还有两个组件要实现 多头注意力机制(Multi-Head Attention)已经实现了还有Add & Norm和 Feed-forward networ,这里的norm是Layer normalization.
西西弗Sisyphus20 天前
transformer·attention·注意力机制·注意力
从零实现Transformer:第 2 部分 - 缩放点积注意力(Scaled Dot-Product Attention)flyfish对于一些名词分不清的,我特写了一篇 Transformer 架构里关于 Attention 概念的澄清
西西弗Sisyphus21 天前
transformer·attention·注意力机制·注意力·self-attention
Transformer 架构里关于 Attention 概念的澄清flyfish 先分 Encoder Stack 和 Decoder Stack 论文里的图没画 Encoder Stack由 N 个完全相同的 Encoder 层 堆叠而成 Decoder Stack由 N 个完全相同的 Decoder 层 堆叠而成
空巢青年_rui1 个月前
llm·attention·mha·gqa·dsa·mla·swa
【翻译】现代LLM中注意力变体的可视化指南:从MHA和GQA到MLA、稀疏注意力机制和混合架构原文地址:A Visual Guide to Attention Variants in Modern LLMs
沅_Yuan1 个月前
机器学习·回归·cnn·lstm·attention·核密度估计·kde
基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】在深度学习时间序列预测与回归分析中,传统的模型往往只能给出一个确定的“点预测”结果(例如:预测明天的温度是25度)。然而,在许多高风险的工程和金融场景中,我们不仅需要知道预测值是多少,还需要知道这个预测值的可靠程度(例如:明天温度在23度到27度之间的概率是90%)。
bryant_meng2 个月前
人工智能·深度学习·自然语言处理·attention·seq2seq
【NLP】《The Evolution of NLP: Understanding RNNs, Seq2Seq, and Attention》Attention 最初是为了打破 RNN 在 Seq2Seq 任务中的瓶颈而诞生的。Seq2Seq (序列到序列:一种任务类型)
Sakuraba Ema2 个月前
python·llm·attention
Attention Residuals:把固定残差换成“跨层注意力”这篇博客讲解论文 Attention Residuals,重点回答四个问题:在现代 Transformer / LLM 中,PreNorm 残差连接是标准做法。 最经典的写法是:
被制作时长两年半的个人练习生4 个月前
attention·cuda
【FlashAttention】 FA2与FA1算法区别辨析看了几篇关于FlashAttention2的文章,对于其中移除冗余的CUDA操作这个算法优化进行了一个综合梳理。 https://zhuanlan.zhihu.com/p/1993815603383902344 https://zhuanlan.zhihu.com/p/668888063 https://zhuanlan.zhihu.com/p/665170554
云雾J视界5 个月前
算法·google·bert·transformer·attention·算法治理
当算法试图解决一切:技术解决方案主义的诱惑与陷阱目录一、 理想主义的蓝图:当Google试图用算法定义“优质”信息二、 表象的成功与本质的回避:当“优质”成为一个黑箱
Aspect of twilight5 个月前
人工智能·attention
各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解参考文章:DeepSeek-V2:减小KV head的数量,多个Query head共用一个KV head
菠菠萝宝6 个月前
人工智能·深度学习·大模型·llm·nlp·attention·llama
【AI应用探索】-7- LLaMA-Factory微调模型我们统一使用conda来管理我们的python环境创建python环境为3.10的conda环境并激活
KIDGINBROOK7 个月前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
cyyt8 个月前
深度学习·attention·量子计算
深度学习周报(9.22~9.28)目录摘要Abstract1 注意力机制1.1 背景及流程1.2 注意力分数1.3 Transformer
applebomb10 个月前
python·ubuntu·attention·flash
没合适的组合wheel包,就自行编译flash_attn吧不知道是不是也有很多小伙伴像我一样,经常一装机就把最新的cuda安装上去了。等装到组件时,才发现cuda和其它组件各种不适配。这次把nvcc直接装到12.8了,然后发现flash attn没有合适的wheel,就只能自己编译了。下面记录下我的编译过程: