技术栈
attention
西西弗Sisyphus
6 天前
transformer
·
attention
·
unsqueeze
·
self-attention
·
残差
·
residual
·
squeeze
从零实现Transformer:第 4 部分 - Residual Connection的两种实现 Pre-LN 和 Post-LN
flyfishPre-LN = Pre-Layer Normalization Post-LN = Post-Layer Normalization
西西弗Sisyphus
7 天前
transformer
·
attention
·
注意力机制
·
注意力
·
decoder
·
self-attention
从零实现Transformer:第 9 部分 - 推理(Inference )
文本转张量 → 编码器编码一次 → 解码器从 SOS 开始 → 循环逐词贪心生成 → 遇到 EOS 停止 → 张量转回文本
机器学习之心
7 天前
matlab
·
attention
·
bilstm
·
车速预测
多工况车速数据集训练BiLSTM-Attention用于车速预测,输出未来多个时间步车速,MATLAB代码
车辆速度预测是智能交通系统、新能源汽车能量管理、驾驶辅助系统等领域的关键技术。传统方法(如马尔可夫链、ARIMA)难以捕捉复杂的时间依赖性和非线性特征。近年来,深度学习模型(如LSTM、BiLSTM、Attention机制)在时间序列预测中表现优异。本代码基于 BiLSTM + 自注意力机制,实现对不同驾驶工况(如NEDC、UDDS、WLTC)下车速的多步预测。
机器学习之心
12 天前
回归
·
cnn
·
attention
·
cnn-xlstm
CNN-xLSTM-Attention 回归模型:从原理到 SHAP 可解释性全解析
融合卷积、长短期记忆与注意力机制,让时间序列预测同时做到高精度与高解释性。在工业预测、故障诊断、能源负荷预测等任务中,我们经常需要处理结构复杂的表格型时间序列数据。今天,我们深入一种新颖的混合深度学习架构——CNN-xLSTM-Attention,并配合 SHAP 可解释性分析,在实现高精度回归的同时,让模型决策过程一目了然。
庞轩px
16 天前
人工智能
·
rnn
·
深度学习
·
transformer
·
attention
·
q-k-v
Transformer的核心思想——Attention机制直观理解
在上一篇中,我们理解了Embedding如何把文字变成向量。但光有向量还不够——大模型需要"读懂"一句话里各个词之间的关系。比如:
索木木
17 天前
人工智能
·
机器学习
·
大模型
·
attention
·
训练
·
显存优化
·
aiinfra
Flash Attention反向梯度优化显存
前面我有文章介绍子Flash Attention 针对长序列的正向优化,而其反向算子(Backward Pass)的优化由于涉及到复杂的梯度重计算和显存权衡,往往比正向过程更具挑战性。
西西弗Sisyphus
17 天前
resnet
·
transformer
·
attention
·
注意力机制
·
注意力
从零实现Transformer:第 4 部分 - 残差连接、层归一化与前馈网络(Add & Norm, Feed-Forward)
flyfish本部分的完整代码在文末主要用于和其他的图做参考 还有两个组件要实现 多头注意力机制(Multi-Head Attention)已经实现了还有Add & Norm和 Feed-forward networ,这里的norm是Layer normalization.
西西弗Sisyphus
20 天前
transformer
·
attention
·
注意力机制
·
注意力
从零实现Transformer:第 2 部分 - 缩放点积注意力(Scaled Dot-Product Attention)
flyfish对于一些名词分不清的,我特写了一篇 Transformer 架构里关于 Attention 概念的澄清
西西弗Sisyphus
21 天前
transformer
·
attention
·
注意力机制
·
注意力
·
self-attention
Transformer 架构里关于 Attention 概念的澄清
flyfish 先分 Encoder Stack 和 Decoder Stack 论文里的图没画 Encoder Stack由 N 个完全相同的 Encoder 层 堆叠而成 Decoder Stack由 N 个完全相同的 Decoder 层 堆叠而成
空巢青年_rui
1 个月前
llm
·
attention
·
mha
·
gqa
·
dsa
·
mla
·
swa
【翻译】现代LLM中注意力变体的可视化指南:从MHA和GQA到MLA、稀疏注意力机制和混合架构
原文地址:A Visual Guide to Attention Variants in Modern LLMs
沅_Yuan
1 个月前
机器学习
·
回归
·
cnn
·
lstm
·
attention
·
核密度估计
·
kde
基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】
在深度学习时间序列预测与回归分析中,传统的模型往往只能给出一个确定的“点预测”结果(例如:预测明天的温度是25度)。然而,在许多高风险的工程和金融场景中,我们不仅需要知道预测值是多少,还需要知道这个预测值的可靠程度(例如:明天温度在23度到27度之间的概率是90%)。
bryant_meng
2 个月前
人工智能
·
深度学习
·
自然语言处理
·
attention
·
seq2seq
【NLP】《The Evolution of NLP: Understanding RNNs, Seq2Seq, and Attention》
Attention 最初是为了打破 RNN 在 Seq2Seq 任务中的瓶颈而诞生的。Seq2Seq (序列到序列:一种任务类型)
Sakuraba Ema
2 个月前
python
·
llm
·
attention
Attention Residuals:把固定残差换成“跨层注意力”
这篇博客讲解论文 Attention Residuals,重点回答四个问题:在现代 Transformer / LLM 中,PreNorm 残差连接是标准做法。 最经典的写法是:
被制作时长两年半的个人练习生
4 个月前
attention
·
cuda
【FlashAttention】 FA2与FA1算法区别辨析
看了几篇关于FlashAttention2的文章,对于其中移除冗余的CUDA操作这个算法优化进行了一个综合梳理。 https://zhuanlan.zhihu.com/p/1993815603383902344 https://zhuanlan.zhihu.com/p/668888063 https://zhuanlan.zhihu.com/p/665170554
云雾J视界
5 个月前
算法
·
google
·
bert
·
transformer
·
attention
·
算法治理
当算法试图解决一切:技术解决方案主义的诱惑与陷阱
目录一、 理想主义的蓝图:当Google试图用算法定义“优质”信息二、 表象的成功与本质的回避:当“优质”成为一个黑箱
Aspect of twilight
5 个月前
人工智能
·
attention
各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解
参考文章:DeepSeek-V2:减小KV head的数量,多个Query head共用一个KV head
菠菠萝宝
6 个月前
人工智能
·
深度学习
·
大模型
·
llm
·
nlp
·
attention
·
llama
【AI应用探索】-7- LLaMA-Factory微调模型
我们统一使用conda来管理我们的python环境创建python环境为3.10的conda环境并激活
KIDGINBROOK
7 个月前
attention
·
cuda
分布式与长序列attention
下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
cyyt
8 个月前
深度学习
·
attention
·
量子计算
深度学习周报(9.22~9.28)
目录摘要Abstract1 注意力机制1.1 背景及流程1.2 注意力分数1.3 Transformer
applebomb
10 个月前
python
·
ubuntu
·
attention
·
flash
没合适的组合wheel包,就自行编译flash_attn吧
不知道是不是也有很多小伙伴像我一样,经常一装机就把最新的cuda安装上去了。等装到组件时,才发现cuda和其它组件各种不适配。这次把nvcc直接装到12.8了,然后发现flash attn没有合适的wheel,就只能自己编译了。下面记录下我的编译过程: