transformer

机器学习之心9 小时前
深度学习·gru·transformer·shap分析
SHAP分析!Transformer-GRU组合模型SHAP分析,模型可解释不在发愁!基于SHAP分析的特征选择和贡献度计算,Matlab2023b代码实现;基于MATLAB的SHAP可解释Transformer-GRU回归模型,敏感性分析方法。 详细介绍
四口鲸鱼爱吃盐13 小时前
深度学习·prompt·transformer
CVPR2025 | Prompt-CAM: 让视觉 Transformer 可解释以进行细粒度分析论文链接GitHub链接本文 “Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis” 提出 Prompt-CAM 方法,旨在使预训练的视觉 Transformer(ViT)可解释以用于细粒度分析。该方法通过学习类特定提示,利用预训练 ViT 的特征,实现细粒度图像分类、特征定位等功能。与其他方法相比,Prompt-CAM 具有简单易实现和训练的优势。在 13 个不同领域的数据集上的实验验证了其卓越的解
sbc-study18 小时前
gpt·学习·transformer
大规模预训练范式(Large-scale Pre-training)大规模预训练指在巨量无标注数据上,通过自监督学习训练大参数量的基础模型,使其具备通用的表征与推理能力。其重要作用如下:
jzwei0231 天前
人工智能·深度学习·transformer
Transformer Decoder-Only 参数量计算Transformer 的 Decoder-Only 架构(如 GPT 系列模型)是当前大语言模型的主流架构,其参数量主要由以下几个部分组成:
music&movie1 天前
网络·人工智能·transformer
手写系列——transformer网络完成加法和字符转译任务代码实现:transformers/char2char_add.py · 陈先生/ailib - Gitee.com
就决定是你啦!2 天前
深度学习·计算机视觉·transformer
深入解析 Vision Transformer (ViT) 与其在计算机视觉中的应用在近年来,深度学习尤其在计算机视觉领域取得了巨大的进展,而 Vision Transformer(ViT)作为一种新的视觉模型,它的表现甚至在许多任务中超过了传统的卷积神经网络(CNN),如
豆芽8192 天前
人工智能·深度学习·目标检测·计算机视觉·transformer
Vision Transformer(ViT)Vision Transformer(ViT)是一种将Transformer模型应用于计算机视觉任务的创新方法,由Google Research团队在2020年提出。它打破了传统卷积神经网络(CNN)在图像处理中的主导地位,通过全局注意力机制直接建模图像块(patches)之间的关系,尤其在大规模数据集上表现出色。
誉鏐2 天前
人工智能·深度学习·大模型·transformer
为什么Transformer推理需要做KV缓存α的计算过程:这里引入三个向量:图中的q为Query,用来匹配key值图中的k为key,用来被Query匹配
njsgcs2 天前
人工智能·深度学习·transformer
vison transformer vit 论文阅读20年的论文看成10年的哈斯我了[2010.11929] 一张图像胜过 16x16 个单词:用于大规模图像识别的转换器 --- [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
KingDol_MIni3 天前
回归·lstm·transformer
Transformer-LSTM混合模型在时序回归中的完整流程研究深度学习中的长期依赖建模一直是时序预测的核心问题。长短期记忆网络(LSTM)作为一种循环神经网络,因其特殊的门控结构能够有效捕捉序列的历史信息,并在时序预测中表现出色;然而LSTM的序列计算方式限制了其并行处理能力和对全局上下文信息的感知。相比之下,Transformer模型通过自注意力机制可以并行处理数据并捕捉全局依赖,对复杂时序数据(例如季节性、周期性强的数据)具有天然优势。因此,将两者结合可以兼顾短期局部模式和长期全局关联:LSTM负责提取连续时序中的细节信息,Transformer补充全局依赖权重
机器学习之心HML3 天前
人工智能·深度学习·transformer
Transformer编码器+SHAP分析,模型可解释创新表达!基本介绍基于SHAP分析的特征选择和贡献度计算,Matlab2023b代码实现;基于MATLAB的SHAP可解释Transformer编码器回归模型,敏感性分析方法。
jzwei0234 天前
深度学习·ai·transformer
为啥大模型一般将kv进行缓存,而q不需要大模型(如 GPT 等)在推理时通常采用自回归生成的方式:由于自回归生成是逐步进行的,k 和 v 的性质决定了它们可以被重复利用,而 q 则需要每次都重新计算。
COOCC14 天前
人工智能·pytorch·python·深度学习·算法·机器学习·transformer
PyTorch 实战:从 0 开始搭建 TransformerpythonpythonpythonpythonpythonGCT 建议添加在 Conv 层前,一般可以先冻结原来的模型,来训练 GCT,然后解冻再进行微调。
jerwey4 天前
人工智能·深度学习·transformer·dit
Diffusion Transformer(DiT)✅ Diffusion Model(基础扩散模型)(像素空间)   ↓效率优化 ✅ LDM(Latent Diffusion Model,潜在扩散模型 + U-Net)   ↓ 架构革新 ✅ DiT(Diffusion Transformer)(潜在空间 + Transformer)
KingDol_MIni5 天前
回归·lstm·transformer
transformer➕lstm训练回归模型在机器学习和深度学习中,处理时序数据是一项常见的任务。无论是金融预测、气象预测还是库存管理等领域,时序数据都扮演着至关重要的角色。对于时序数据的建模,深度学习模型,如 LSTM(长短期记忆网络)和 Transformer,已被广泛应用。本文将介绍如何结合 LSTM 和 Transformer 模块,构建一个优化后的回归模型,并展示从数据生成到模型训练的全流程。
聚客AI5 天前
人工智能·语言模型·chatgpt·transformer·ai大模型·模型微调·deepseek
预训练模型实战手册:用BERT/GPT-2微调实现10倍效率提升,Hugging Face生态下的迁移学习全链路实践更多AI大模型应用开发学习内容,尽在聚客AI学院。预训练模型(Pre-trained Model, PTM)是在大规模通用数据上预先训练的模型,通过自监督学习掌握基础语义理解能力,可迁移到下游任务。典型代表:
Panesle5 天前
大模型·transformer·音频·扩散模型·文本生成音乐
ACE-Step:扩散自编码文生音乐基座模型快速了解ACE-Step 是一款由 ACE Studio 和 StepFun 开发的新型开源音乐生成基础模型。它通过整合基于扩散的生成方式、Sana 的深度压缩自编码器(DCAE)以及轻量级线性变换器,在音乐生成速度、音乐连贯性和可控性等方面达到前所未有的高度,成功克服了现有方法的关键局限性。
伊布拉西莫6 天前
语言模型·自然语言处理·transformer
NLP 和大模型技术路线transformers快速入门在自然语言处理(NLP)和大模型领域,技术路线的学习应该从基础开始,逐步深入到更高阶的应用和优化技术。本文将详细介绍相关技术点的学习顺序,以及每个技术点的关键学习内容。
flying_13146 天前
人工智能·深度学习·神经网络·transformer·注意力机制
面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d首先先罗列几个参考文章,大家之后可以去看看,加深理解:好,步入正题,我们假定各位读者看过上面👆几篇文章,已经了解了,为什么自注意力机制中要使用 进行缩放,然后我们进一步进行探究,为什么不是 。