注意力机制

西西弗Sisyphus2 天前
transformer·attention·注意力机制·注意力·decoder·self-attention
从零实现Transformer:第 9 部分 - 推理(Inference )文本转张量 → 编码器编码一次 → 解码器从 SOS 开始 → 循环逐词贪心生成 → 遇到 EOS 停止 → 张量转回文本
小何code3 天前
深度学习·bert·transformer·注意力机制
人工智能【第23篇】Transformer模型详解:Attention Is All You Need作者的话:在前面的文章中,我们学习了Seq2Seq和注意力机制。2017年,Google的论文《Attention Is All You Need》彻底改变了NLP领域,提出了Transformer架构。Transformer完全基于注意力机制,摒弃了RNN的循环结构,实现了并行计算和更强的长距离依赖建模能力。本文将深入讲解Transformer的原理和实现,带你理解现代大语言模型的基础!
小何code3 天前
人工智能·深度学习·自然语言处理·机器翻译·注意力机制·seq2seq
人工智能【第22篇】Seq2Seq模型与注意力机制:机器翻译的基石作者的话:在前面的文章中,我们学习了RNN、LSTM以及NLP的基础知识。现在让我们进入NLP的核心应用——机器翻译。Seq2Seq(Sequence to Sequence)模型是机器翻译的基石,而注意力机制(Attention)的出现更是将翻译质量提升到了新的高度。本文将详细讲解这两个核心技术,帮助你理解现代NLP的基础!
西西弗Sisyphus13 天前
resnet·transformer·attention·注意力机制·注意力
从零实现Transformer:第 4 部分 - 残差连接、层归一化与前馈网络(Add & Norm, Feed-Forward)flyfish本部分的完整代码在文末主要用于和其他的图做参考 还有两个组件要实现 多头注意力机制(Multi-Head Attention)已经实现了还有Add & Norm和 Feed-forward networ,这里的norm是Layer normalization.
2zcode13 天前
分割网络·注意力机制·cbam·轻量级低光照道路
基于CBAM注意力机制的轻量级低光照道路分割网络摘要:针对低光照环境下道路分割精度低、实时性差的问题,本文提出了一种融合CBAM注意力机制的轻量级卷积神经网络。该网络采用深度可分离卷积构建编码器-解码器架构,在保持较少参数量的同时实现高精度的道路分割。为提升低光照场景下的特征表达能力,本文在网络关键位置引入CBAM(Convolutional Block Attention Module)注意力模块,通过通道注意力和空间注意力的协同作用,自适应地增强道路区域特征并抑制背景干扰。
deepdata_cn14 天前
注意力机制
硬注意力机制(Hard Attention)硬注意力机制(Hard Attention)是深度学习领域中注意力机制的重要变体,核心是模拟人类认知的“聚焦”特性,通过离散化选择的方式,从海量输入信息中筛选出单个关键部分进行重点处理,忽略其余无关信息,与软注意力的连续加权方式形成本质区别,广泛应用于计算机视觉、自然语言处理等多个领域。
西西弗Sisyphus15 天前
transformer·attention·注意力机制·注意力
从零实现Transformer:第 2 部分 - 缩放点积注意力(Scaled Dot-Product Attention)flyfish对于一些名词分不清的,我特写了一篇 Transformer 架构里关于 Attention 概念的澄清
西西弗Sisyphus16 天前
transformer·attention·注意力机制·注意力·self-attention
Transformer 架构里关于 Attention 概念的澄清flyfish 先分 Encoder Stack 和 Decoder Stack 论文里的图没画 Encoder Stack由 N 个完全相同的 Encoder 层 堆叠而成 Decoder Stack由 N 个完全相同的 Decoder 层 堆叠而成
一勺汤1 个月前
yolo·注意力机制·降噪·小目标·yolo26·yolo26改进
YOLO26 改进、魔改| 空间-通道特征调制器SCFM,通过空间与通道双维度注意力调制,融合全局与局部特征,提升视觉任务的特征质量与模型效果。当前超高清图像复原任务中,传统逐像素处理的视觉模型计算成本极高,即便采用聚类中心的稀疏建模方式大幅压缩计算量,也会在特征聚合过程中不可避免地丢失图像边缘、纹理、细微结构等高频细节信息,导致模型只具备全局语义理解能力,却缺失局部精细特征支撑。为了破解高效建模与细节保留无法兼顾的行业难题,SCFM 被设计为专用的特征优化模块,以轻量化机制完成细节修复与特征补强。
一勺汤2 个月前
yolo·注意力机制·轻量化·小目标·yolo26·yolo26改进·复杂场景
YOLO26 改进、魔改| 部分通道注意力模块PAT,以轻量化并行结构融合局部卷积与增强型通道注意力,提升小目标、遮挡目标的检测效果。PAT(Partial Channel-Attention block)是一款专为神经网络高效特征提取设计的轻量化模块,其诞生源于计算机视觉任务中 “性能提升” 与 “效率优化” 的核心矛盾。在深度学习模型不断向深层、密集化发展的趋势下,传统卷积虽能捕捉特征但计算冗余严重,单纯的轻量化卷积又易丢失全局信息;而常规通道注意力机制仅依赖单一统计信息,特征挖掘不够充分。为解决这一痛点,PAT创新性地将 “部分通道计算” 与 “增强型注意力机制” 结合,既规避了全量计算的高成本,又弥补了传统注意力的信息短板,适配
nap-joker2 个月前
人工智能·学习·注意力机制·跨尺度·病理学切片
【跨尺度】跨尺度多实例学习用于病理图像诊断1、有开源代码https://github.com/hrlblab/CS-MIL2、针对 以往的研究未考虑不同分辨率之间的尺度间关系,且病理图像WSL具有金字塔形特性(也就是不同的放大倍数下的图像呈现金字塔式的结构),所以作者引入了跨尺度注意力机制。通过跨尺度注意力图识别重要区域,并通过乘以跨尺度注意力评分来诊断病理图像,将跨尺度特征聚合为跨尺度表示。采用跨尺度注意力机制将跨尺度特征与不同注意力评分合并。将不同群体的跨尺度表示串联进行病理分类。
这张生成的图像能检测吗2 个月前
计算机视觉·注意力机制·时序模型
(论文速读)MOMENT:一组开放的时间序列基础模型论文题目:MOMENT: A Family of Open Time-series Foundation Models(一组开放的时间序列基础模型)
Dev7z2 个月前
人工智能·lstm·注意力机制·温度预测系统
基于注意力机制LSTM的温度预测系统设计与实现摘要:本文针对温度时间序列预测,设计并实现了一套基于注意力机制与LSTM相结合的温度预测系统。通过构建Attn-LSTM模型,并基于Flask搭建可视化平台,实现了数据分析、模型训练、结果评估与预测展示等功能,为温度预测提供了一体化的建模与应用方案。
这张生成的图像能检测吗2 个月前
人工智能·深度学习·神经网络·计算机视觉·注意力机制·vit·时序模型
(论文速读)PatchTST:通道无关补丁时间序列变压器论文题目:A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS(一个时间序列相当于64个字:用变压器进行长期预测)
Shining05962 个月前
人工智能·分布式·深度学习·机器学习·大模型·注意力机制·推理引擎
推理引擎系列(四)《大模型计算优化与分布式推理》目录背景与意义1.Scaling Law 驱动模型容量越来越大:2. 大模型带来的问题:低精度类型1. 低精度数据类型优势:
这张生成的图像能检测吗2 个月前
计算机视觉·大模型·nlp·注意力机制
(论文速读)Performer论文题目:RETHINKING ATTENTION WITH PERFORMERS(重新思考对表演者的关注)
这张生成的图像能检测吗2 个月前
人工智能·深度学习·计算机视觉·自然语言处理·大模型·nlp·注意力机制
(论文速读)GPT3:语言模型是一次性学习者论文题目:Language Models are Few-Shot Learners(语言模型是一次性学习者)
All The Way North-2 个月前
pytorch·gru·nlp·机器翻译·注意力机制·seq2seq·teacher forcing
【硬核实战】基于GRU + 注意力机制 的Seq2Seq机器翻译模型——从数据预处理到训练推理全解析基于GRU的seq2seq模型架构实现翻译的过程:可以后面用一个再导入一个,想起来哪个导哪个1.查看数据
All The Way North-3 个月前
机器翻译·注意力机制·encoder-decoder·seq2seq·自回归模型·teacher forcing·计划采样
从 Encoder-Decoder 到 Teacher Forcing:Seq2Seq 机器翻译的完整原理与实现细节全解析一、为什么叫 “Seq2Seq”?到底是什么意思?✅ 所以,“Seq2Seq” 描述的是一类通用任务范式:变长输入 → 变长输出。
这张生成的图像能检测吗3 个月前
人工智能·计算机视觉·nlp·注意力机制
(论文速读)XLNet:语言理解的广义自回归预训练论文题目:XLNet: Generalized Autoregressive Pretraining for Language Understanding(语言理解的广义自回归预训练)