技术栈
注意力机制
西西弗Sisyphus
2 天前
transformer
·
attention
·
注意力机制
·
注意力
·
decoder
·
self-attention
从零实现Transformer:第 9 部分 - 推理(Inference )
文本转张量 → 编码器编码一次 → 解码器从 SOS 开始 → 循环逐词贪心生成 → 遇到 EOS 停止 → 张量转回文本
小何code
3 天前
深度学习
·
bert
·
transformer
·
注意力机制
人工智能【第23篇】Transformer模型详解:Attention Is All You Need
作者的话:在前面的文章中,我们学习了Seq2Seq和注意力机制。2017年,Google的论文《Attention Is All You Need》彻底改变了NLP领域,提出了Transformer架构。Transformer完全基于注意力机制,摒弃了RNN的循环结构,实现了并行计算和更强的长距离依赖建模能力。本文将深入讲解Transformer的原理和实现,带你理解现代大语言模型的基础!
小何code
3 天前
人工智能
·
深度学习
·
自然语言处理
·
机器翻译
·
注意力机制
·
seq2seq
人工智能【第22篇】Seq2Seq模型与注意力机制:机器翻译的基石
作者的话:在前面的文章中,我们学习了RNN、LSTM以及NLP的基础知识。现在让我们进入NLP的核心应用——机器翻译。Seq2Seq(Sequence to Sequence)模型是机器翻译的基石,而注意力机制(Attention)的出现更是将翻译质量提升到了新的高度。本文将详细讲解这两个核心技术,帮助你理解现代NLP的基础!
西西弗Sisyphus
13 天前
resnet
·
transformer
·
attention
·
注意力机制
·
注意力
从零实现Transformer:第 4 部分 - 残差连接、层归一化与前馈网络(Add & Norm, Feed-Forward)
flyfish本部分的完整代码在文末主要用于和其他的图做参考 还有两个组件要实现 多头注意力机制(Multi-Head Attention)已经实现了还有Add & Norm和 Feed-forward networ,这里的norm是Layer normalization.
2zcode
13 天前
分割网络
·
注意力机制
·
cbam
·
轻量级低光照道路
基于CBAM注意力机制的轻量级低光照道路分割网络
摘要:针对低光照环境下道路分割精度低、实时性差的问题,本文提出了一种融合CBAM注意力机制的轻量级卷积神经网络。该网络采用深度可分离卷积构建编码器-解码器架构,在保持较少参数量的同时实现高精度的道路分割。为提升低光照场景下的特征表达能力,本文在网络关键位置引入CBAM(Convolutional Block Attention Module)注意力模块,通过通道注意力和空间注意力的协同作用,自适应地增强道路区域特征并抑制背景干扰。
deepdata_cn
14 天前
注意力机制
硬注意力机制(Hard Attention)
硬注意力机制(Hard Attention)是深度学习领域中注意力机制的重要变体,核心是模拟人类认知的“聚焦”特性,通过离散化选择的方式,从海量输入信息中筛选出单个关键部分进行重点处理,忽略其余无关信息,与软注意力的连续加权方式形成本质区别,广泛应用于计算机视觉、自然语言处理等多个领域。
西西弗Sisyphus
15 天前
transformer
·
attention
·
注意力机制
·
注意力
从零实现Transformer:第 2 部分 - 缩放点积注意力(Scaled Dot-Product Attention)
flyfish对于一些名词分不清的,我特写了一篇 Transformer 架构里关于 Attention 概念的澄清
西西弗Sisyphus
16 天前
transformer
·
attention
·
注意力机制
·
注意力
·
self-attention
Transformer 架构里关于 Attention 概念的澄清
flyfish 先分 Encoder Stack 和 Decoder Stack 论文里的图没画 Encoder Stack由 N 个完全相同的 Encoder 层 堆叠而成 Decoder Stack由 N 个完全相同的 Decoder 层 堆叠而成
一勺汤
1 个月前
yolo
·
注意力机制
·
降噪
·
小目标
·
yolo26
·
yolo26改进
YOLO26 改进、魔改| 空间-通道特征调制器SCFM,通过空间与通道双维度注意力调制,融合全局与局部特征,提升视觉任务的特征质量与模型效果。
当前超高清图像复原任务中,传统逐像素处理的视觉模型计算成本极高,即便采用聚类中心的稀疏建模方式大幅压缩计算量,也会在特征聚合过程中不可避免地丢失图像边缘、纹理、细微结构等高频细节信息,导致模型只具备全局语义理解能力,却缺失局部精细特征支撑。为了破解高效建模与细节保留无法兼顾的行业难题,SCFM 被设计为专用的特征优化模块,以轻量化机制完成细节修复与特征补强。
一勺汤
2 个月前
yolo
·
注意力机制
·
轻量化
·
小目标
·
yolo26
·
yolo26改进
·
复杂场景
YOLO26 改进、魔改| 部分通道注意力模块PAT,以轻量化并行结构融合局部卷积与增强型通道注意力,提升小目标、遮挡目标的检测效果。
PAT(Partial Channel-Attention block)是一款专为神经网络高效特征提取设计的轻量化模块,其诞生源于计算机视觉任务中 “性能提升” 与 “效率优化” 的核心矛盾。在深度学习模型不断向深层、密集化发展的趋势下,传统卷积虽能捕捉特征但计算冗余严重,单纯的轻量化卷积又易丢失全局信息;而常规通道注意力机制仅依赖单一统计信息,特征挖掘不够充分。为解决这一痛点,PAT创新性地将 “部分通道计算” 与 “增强型注意力机制” 结合,既规避了全量计算的高成本,又弥补了传统注意力的信息短板,适配
nap-joker
2 个月前
人工智能
·
学习
·
注意力机制
·
跨尺度
·
病理学切片
【跨尺度】跨尺度多实例学习用于病理图像诊断
1、有开源代码https://github.com/hrlblab/CS-MIL2、针对 以往的研究未考虑不同分辨率之间的尺度间关系,且病理图像WSL具有金字塔形特性(也就是不同的放大倍数下的图像呈现金字塔式的结构),所以作者引入了跨尺度注意力机制。通过跨尺度注意力图识别重要区域,并通过乘以跨尺度注意力评分来诊断病理图像,将跨尺度特征聚合为跨尺度表示。采用跨尺度注意力机制将跨尺度特征与不同注意力评分合并。将不同群体的跨尺度表示串联进行病理分类。
这张生成的图像能检测吗
2 个月前
计算机视觉
·
注意力机制
·
时序模型
(论文速读)MOMENT:一组开放的时间序列基础模型
论文题目:MOMENT: A Family of Open Time-series Foundation Models(一组开放的时间序列基础模型)
Dev7z
2 个月前
人工智能
·
lstm
·
注意力机制
·
温度预测系统
基于注意力机制LSTM的温度预测系统设计与实现
摘要:本文针对温度时间序列预测,设计并实现了一套基于注意力机制与LSTM相结合的温度预测系统。通过构建Attn-LSTM模型,并基于Flask搭建可视化平台,实现了数据分析、模型训练、结果评估与预测展示等功能,为温度预测提供了一体化的建模与应用方案。
这张生成的图像能检测吗
2 个月前
人工智能
·
深度学习
·
神经网络
·
计算机视觉
·
注意力机制
·
vit
·
时序模型
(论文速读)PatchTST:通道无关补丁时间序列变压器
论文题目:A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS(一个时间序列相当于64个字:用变压器进行长期预测)
Shining0596
2 个月前
人工智能
·
分布式
·
深度学习
·
机器学习
·
大模型
·
注意力机制
·
推理引擎
推理引擎系列(四)《大模型计算优化与分布式推理》
目录背景与意义1.Scaling Law 驱动模型容量越来越大:2. 大模型带来的问题:低精度类型1. 低精度数据类型优势:
这张生成的图像能检测吗
2 个月前
计算机视觉
·
大模型
·
nlp
·
注意力机制
(论文速读)Performer
论文题目:RETHINKING ATTENTION WITH PERFORMERS(重新思考对表演者的关注)
这张生成的图像能检测吗
2 个月前
人工智能
·
深度学习
·
计算机视觉
·
自然语言处理
·
大模型
·
nlp
·
注意力机制
(论文速读)GPT3:语言模型是一次性学习者
论文题目:Language Models are Few-Shot Learners(语言模型是一次性学习者)
All The Way North-
2 个月前
pytorch
·
gru
·
nlp
·
机器翻译
·
注意力机制
·
seq2seq
·
teacher forcing
【硬核实战】基于GRU + 注意力机制 的Seq2Seq机器翻译模型——从数据预处理到训练推理全解析
基于GRU的seq2seq模型架构实现翻译的过程:可以后面用一个再导入一个,想起来哪个导哪个1.查看数据
All The Way North-
3 个月前
机器翻译
·
注意力机制
·
encoder-decoder
·
seq2seq
·
自回归模型
·
teacher forcing
·
计划采样
从 Encoder-Decoder 到 Teacher Forcing:Seq2Seq 机器翻译的完整原理与实现细节全解析
一、为什么叫 “Seq2Seq”?到底是什么意思?✅ 所以,“Seq2Seq” 描述的是一类通用任务范式:变长输入 → 变长输出。
这张生成的图像能检测吗
3 个月前
人工智能
·
计算机视觉
·
nlp
·
注意力机制
(论文速读)XLNet:语言理解的广义自回归预训练
论文题目:XLNet: Generalized Autoregressive Pretraining for Language Understanding(语言理解的广义自回归预训练)