技术栈
注意力机制
【建模先锋】
4 天前
人工智能
·
深度学习
·
注意力机制
·
预测模型
·
gat
·
时间序列预测模型
独家原创!基于特征—时间双图注意力与BiGRU全局注意力并行融合的高创新预测模型
单步预测-风速预测模型代码全家桶-CSDN博客半天入门!锂电池剩余寿命预测(Python)-CSDN博客
weixin_46846685
6 天前
人工智能
·
python
·
深度学习
·
算法
·
自然语言处理
·
transformer
·
注意力机制
全局与局部注意力机制新手实战指南
在处理长文本序列时,你是否遇到过模型“记不住”开头内容,或者对关键信息聚焦不准的情况?这往往是传统循环神经网络或基础注意力机制在长距离依赖建模上的局限所致。特别是在处理数千甚至上万 token 的文档、代码库或长篇对话时,如何让模型高效地捕捉全局语境,同时又不牺牲局部细节的精度,成为了许多开发者面临的实际痛点。
weixin_46846685
7 天前
人工智能
·
python
·
算法
·
语言模型
·
自然语言处理
·
transformer
·
注意力机制
大语言模型原理新手入门指南
很多开发者在初次接触大语言模型时,往往被其流畅的对话能力所震撼,却对背后的运行逻辑感到神秘莫测。我们习惯了传统软件中确定的输入输出规则,而面对一个能写代码、能创作、甚至能进行逻辑推理的“黑盒”,常常不知从何下手去理解或优化它。其实,剥开那些复杂的数学公式和庞大的参数量,大模型的核心工作原理并没有那么玄乎,它本质上是一个基于概率的文本预测机器,只是通过海量的数据训练和精妙的架构设计,将这种预测能力提升到了智能的高度。
weixin_46846685
8 天前
人工智能
·
架构
·
transformer
·
ssm
·
注意力机制
·
mamba
·
状态空间方程
Mamba 架构新手入门与实战指南
在深度学习领域,Transformer 架构凭借自注意力机制统治了自然语言处理多年,但随着序列长度的增加,其计算复杂度呈平方级增长,显存占用和推理延迟成为难以忽视的瓶颈。许多开发者在面对长文本任务时,常常陷入“算力不够”或“速度太慢”的困境,迫切寻找一种既能保持高性能又能线性扩展的新方案。Mamba 模型的出现恰好击中了这一痛点,它基于状态空间模型(SSM),实现了线性时间的推理速度和恒定的内存占用,为长序列建模打开了新的大门。
weixin_46846685
8 天前
人工智能
·
python
·
深度学习
·
机器学习
·
transformer
·
热力图
·
注意力机制
Transformer 模型新手入门与实战指南
很多刚接触深度学习的开发者,往往被环境配置劝退。明明只是想跑通一个文本情感分析的 Demo,却在安装 CUDA、匹配 PyTorch 版本、解决依赖冲突上耗费了整整两天。这种“还没开始学算法,先成了运维专家”的挫败感,让不少人望而却步。其实,随着工具链的成熟,搭建深度学习环境的门槛已经大幅降低。只要理清思路,利用现成的生态工具,我们完全可以在半小时内从零构建起可用的开发环境,并直接上手核心任务。
这张生成的图像能检测吗
20 天前
人工智能
·
机器学习
·
注意力机制
·
长序列建模
·
视觉分类
(论文速读)TSSA:令牌统计自注意力机制
论文题目:TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION(令牌统计数据转换器:通过降低变分率实现线性时间关注)
西西弗Sisyphus
23 天前
transformer
·
attention
·
注意力机制
·
注意力
·
decoder
·
self-attention
从零实现Transformer:第 9 部分 - 推理(Inference )
文本转张量 → 编码器编码一次 → 解码器从 SOS 开始 → 循环逐词贪心生成 → 遇到 EOS 停止 → 张量转回文本
小何code
24 天前
深度学习
·
bert
·
transformer
·
注意力机制
人工智能【第23篇】Transformer模型详解:Attention Is All You Need
作者的话:在前面的文章中,我们学习了Seq2Seq和注意力机制。2017年,Google的论文《Attention Is All You Need》彻底改变了NLP领域,提出了Transformer架构。Transformer完全基于注意力机制,摒弃了RNN的循环结构,实现了并行计算和更强的长距离依赖建模能力。本文将深入讲解Transformer的原理和实现,带你理解现代大语言模型的基础!
小何code
24 天前
人工智能
·
深度学习
·
自然语言处理
·
机器翻译
·
注意力机制
·
seq2seq
人工智能【第22篇】Seq2Seq模型与注意力机制:机器翻译的基石
作者的话:在前面的文章中,我们学习了RNN、LSTM以及NLP的基础知识。现在让我们进入NLP的核心应用——机器翻译。Seq2Seq(Sequence to Sequence)模型是机器翻译的基石,而注意力机制(Attention)的出现更是将翻译质量提升到了新的高度。本文将详细讲解这两个核心技术,帮助你理解现代NLP的基础!
西西弗Sisyphus
1 个月前
resnet
·
transformer
·
attention
·
注意力机制
·
注意力
从零实现Transformer:第 4 部分 - 残差连接、层归一化与前馈网络(Add & Norm, Feed-Forward)
flyfish本部分的完整代码在文末主要用于和其他的图做参考 还有两个组件要实现 多头注意力机制(Multi-Head Attention)已经实现了还有Add & Norm和 Feed-forward networ,这里的norm是Layer normalization.
2zcode
1 个月前
分割网络
·
注意力机制
·
cbam
·
轻量级低光照道路
基于CBAM注意力机制的轻量级低光照道路分割网络
摘要:针对低光照环境下道路分割精度低、实时性差的问题,本文提出了一种融合CBAM注意力机制的轻量级卷积神经网络。该网络采用深度可分离卷积构建编码器-解码器架构,在保持较少参数量的同时实现高精度的道路分割。为提升低光照场景下的特征表达能力,本文在网络关键位置引入CBAM(Convolutional Block Attention Module)注意力模块,通过通道注意力和空间注意力的协同作用,自适应地增强道路区域特征并抑制背景干扰。
deepdata_cn
1 个月前
注意力机制
硬注意力机制(Hard Attention)
硬注意力机制(Hard Attention)是深度学习领域中注意力机制的重要变体,核心是模拟人类认知的“聚焦”特性,通过离散化选择的方式,从海量输入信息中筛选出单个关键部分进行重点处理,忽略其余无关信息,与软注意力的连续加权方式形成本质区别,广泛应用于计算机视觉、自然语言处理等多个领域。
西西弗Sisyphus
1 个月前
transformer
·
attention
·
注意力机制
·
注意力
从零实现Transformer:第 2 部分 - 缩放点积注意力(Scaled Dot-Product Attention)
flyfish对于一些名词分不清的,我特写了一篇 Transformer 架构里关于 Attention 概念的澄清
西西弗Sisyphus
1 个月前
transformer
·
attention
·
注意力机制
·
注意力
·
self-attention
Transformer 架构里关于 Attention 概念的澄清
flyfish 先分 Encoder Stack 和 Decoder Stack 论文里的图没画 Encoder Stack由 N 个完全相同的 Encoder 层 堆叠而成 Decoder Stack由 N 个完全相同的 Decoder 层 堆叠而成
一勺汤
2 个月前
yolo
·
注意力机制
·
降噪
·
小目标
·
yolo26
·
yolo26改进
YOLO26 改进、魔改| 空间-通道特征调制器SCFM,通过空间与通道双维度注意力调制,融合全局与局部特征,提升视觉任务的特征质量与模型效果。
当前超高清图像复原任务中,传统逐像素处理的视觉模型计算成本极高,即便采用聚类中心的稀疏建模方式大幅压缩计算量,也会在特征聚合过程中不可避免地丢失图像边缘、纹理、细微结构等高频细节信息,导致模型只具备全局语义理解能力,却缺失局部精细特征支撑。为了破解高效建模与细节保留无法兼顾的行业难题,SCFM 被设计为专用的特征优化模块,以轻量化机制完成细节修复与特征补强。
一勺汤
2 个月前
yolo
·
注意力机制
·
轻量化
·
小目标
·
yolo26
·
yolo26改进
·
复杂场景
YOLO26 改进、魔改| 部分通道注意力模块PAT,以轻量化并行结构融合局部卷积与增强型通道注意力,提升小目标、遮挡目标的检测效果。
PAT(Partial Channel-Attention block)是一款专为神经网络高效特征提取设计的轻量化模块,其诞生源于计算机视觉任务中 “性能提升” 与 “效率优化” 的核心矛盾。在深度学习模型不断向深层、密集化发展的趋势下,传统卷积虽能捕捉特征但计算冗余严重,单纯的轻量化卷积又易丢失全局信息;而常规通道注意力机制仅依赖单一统计信息,特征挖掘不够充分。为解决这一痛点,PAT创新性地将 “部分通道计算” 与 “增强型注意力机制” 结合,既规避了全量计算的高成本,又弥补了传统注意力的信息短板,适配
nap-joker
2 个月前
人工智能
·
学习
·
注意力机制
·
跨尺度
·
病理学切片
【跨尺度】跨尺度多实例学习用于病理图像诊断
1、有开源代码https://github.com/hrlblab/CS-MIL2、针对 以往的研究未考虑不同分辨率之间的尺度间关系,且病理图像WSL具有金字塔形特性(也就是不同的放大倍数下的图像呈现金字塔式的结构),所以作者引入了跨尺度注意力机制。通过跨尺度注意力图识别重要区域,并通过乘以跨尺度注意力评分来诊断病理图像,将跨尺度特征聚合为跨尺度表示。采用跨尺度注意力机制将跨尺度特征与不同注意力评分合并。将不同群体的跨尺度表示串联进行病理分类。
这张生成的图像能检测吗
2 个月前
计算机视觉
·
注意力机制
·
时序模型
(论文速读)MOMENT:一组开放的时间序列基础模型
论文题目:MOMENT: A Family of Open Time-series Foundation Models(一组开放的时间序列基础模型)
Dev7z
3 个月前
人工智能
·
lstm
·
注意力机制
·
温度预测系统
基于注意力机制LSTM的温度预测系统设计与实现
摘要:本文针对温度时间序列预测,设计并实现了一套基于注意力机制与LSTM相结合的温度预测系统。通过构建Attn-LSTM模型,并基于Flask搭建可视化平台,实现了数据分析、模型训练、结果评估与预测展示等功能,为温度预测提供了一体化的建模与应用方案。
这张生成的图像能检测吗
3 个月前
人工智能
·
深度学习
·
神经网络
·
计算机视觉
·
注意力机制
·
vit
·
时序模型
(论文速读)PatchTST:通道无关补丁时间序列变压器
论文题目:A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS(一个时间序列相当于64个字:用变压器进行长期预测)