transformer

跳跳糖炒酸奶3 小时前
人工智能·自然语言处理·大模型·transformer·gpt1
第十章、GPT1:Improving Language Understanding by Generative Pre-Training(代码部分)对于代码部分首先先把代码运行起来,其次逐块来看每部分代码在做什么。论文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
高洁014 小时前
人工智能·python·深度学习·神经网络·transformer
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)
盼小辉丶9 小时前
人工智能·深度学习·自然语言处理·transformer
Transformer实战(24)——通过数据增强提升Transformer模型性能我们已经使用经典 Tansformer 模型解决了许多任务,但我们可以通过利用特定的技术来进一步提高模型性能。有多种方法可以提升 Transformer 模型的性能,在节中,我们将介绍如何通过数据增强技术将模型性能提升到超越普通训练流程的水平。数据增强广泛应用于提高深度学习模型的准确性,通过增强数据样本,深度学习模型能够更有效地捕捉数据中的潜在模式和关系。
2401_841495641 天前
人工智能·python·gpt·深度学习·语言模型·自然语言处理·transformer
【自然语言处理】生成式语言模型GPT复现详细技术方案目录一、引言:GPT模型复现的背景与意义二、生成式语言模型GPT的理论基础三、GPT模型架构的详细设计
三排扣1 天前
pytorch·python·transformer
手搓transformer
菜鸟‍1 天前
深度学习·学习·transformer
【论文学习】基于 Transformer 的图像分割模型SegViT:基于纯视觉 Transformer 的语义分割Vision Transformer (ViT):将Transformer模型创新性地应用到了计算机视觉领域
Wu Liuqi1 天前
transformer·#人工智能·#大模型·#学习·#大模型转行
【大模型学习】Transformer 架构详解:从注意力机制到完整模型构建在Transformer出现之前,循环神经网络(RNN)及其变体LSTM是处理自然语言序列的主流模型。但RNN存在两个明显缺陷:
居7然2 天前
人工智能·深度学习·大模型·transformer·embedding
Attention注意力机制:原理、实现与优化全解析在深度学习处理序列数据(如文本、语音、时序信号)的过程中,传统循环神经网络(RNN)和卷积神经网络(CNN)存在明显局限:RNN难以并行计算且长序列下信息传递衰减,CNN则对长距离依赖捕捉能力较弱。Attention注意力机制的出现突破了这一瓶颈,其核心思想是让模型在处理序列时“有的放矢”——通过学习输入序列不同部分的重要性权重,对关键信息进行显式加权,从而高效聚焦与输出相关的内容。本文将从Attention的基础原理出发,逐步深入Transformer中的应用、计算复杂度优化、KV缓存技术,以及MHA、
tt5555555555552 天前
网络·深度学习·transformer
Transformer原理与过程详解本文系统阐述Transformer模型的核心机制,包括自注意力机制、多头注意力机制、掩码注意力机制等关键组件,以及模型的训练和推理全流程。
盼小辉丶2 天前
人工智能·深度学习·transformer
视觉Transformer实战——Vision Transformer(ViT)详解与实现在计算机视觉领域,卷积神经网络 (Convolutional Neural Network, CNN) 长期以来一直是处理图像任务的主流架构。然而,随着 Transformer 在自然语言处理领域的巨大成功,研究人员开始探索将这种基于自注意力机制的架构应用于视觉任务。Vision Transformer (ViT) 是这一探索的重要里程碑,它首次证明了纯 Transformer 架构在图像分类任务上可以超越最先进的 CNN 模型。本文将详细介绍 ViT 的技术原理,并使用 PyTorch 从零开始构建 V
L.EscaRC3 天前
人工智能·深度学习·transformer
【AI基础篇】Transformer架构深度解析与前沿应用Transformer模型最初被设计用于机器翻译任务,其遵循一个经典的 编码器-解码器(Encoder-Decoder)‍ 结构。编码器负责将输入序列(如源语言句子)映射成一连串连续的表示,解码器则利用这些表示,自回归地生成输出序列(如目标语言句子)。
机器学习之心3 天前
cnn·gru·transformer
TCN-Transformer-GRU时间卷积神经网络结合编码器组合门控循环单元多特征分类预测Matlab实现基本介绍1.Matlab实现TCN-Transformer-GRU时间卷积神经网络结合编码器组合门控循环单元多特征分类预测,运行环境Matlab2023b及以上;
高洁013 天前
人工智能·python·深度学习·算法·transformer
大模型-详解 Vision Transformer (ViT)大模型-详解 Vision Transformer (ViT)摘要一、介绍二、相关工作三、方法3.1 图像块嵌入 (Patch Embeddings)
xier_ran4 天前
深度学习·矩阵·transformer
Transformer:Decoder 中,Cross-Attention 所用的 K(Key)和 V(Value)矩阵,是如何从 Encoder 得到的Decoder 中 Cross-Attention 的 K 和 V,就是 Encoder 的最终输出(即最后一层 Encoder 的输出),再分别乘以两个可学习的权重矩阵 和 得到的。
2401_841495644 天前
人工智能·python·gpt·深度学习·语言模型·自然语言处理·transformer
【自然语言处理】轻量版生成式语言模型GPT目录一、引言:轻量版GPT的设计目标与整体架构二、全局配置与工具函数的工程实现三、自定义BPE分词器的设计与实现
机器学习之心5 天前
分类·lstm·transformer·麻雀搜索算法优化·ssa-transformer
SSA-Transformer-LSTM麻雀搜索算法优化组合模型分类预测结合SHAP分析!优化深度组合模型可解释分析,Matlab代码基于SSA(麻雀搜索算法)优化Transformer-LSTM组合模型的结合SHAP可解释分析分类预测模型的MATLAB实现。以下是详细分析:
Rock_yzh6 天前
人工智能·深度学习·神经网络·学习·transformer
AI学习日记——Transformer的架构:编码器与解码器目录一、Transformer概述1. 序列到序列模型2. Transformer的整体架构二、Encoder编码器详解
yuluo_YX6 天前
人工智能·深度学习·transformer
语义模型 - 从 Transformer 到 QwenHuggingface Transformers 是基于一个开源基于 transformer 模型结构提供的预训练语言库,它支持 Pytorch,Tensorflow2.0,并且支持两个框架的相互转换。
大千AI助手6 天前
人工智能·大模型·llm·transformer·模型训练·megatron-lm张量并行·大千ai助手
Megatron-LM张量并行详解:原理、实现与应用本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
Cathy Bryant6 天前
笔记·神经网络·机器学习·数学建模·transformer
智能模型对齐(一致性)alignment“一致性” alignment ,更多的时候被译为“对齐”。每次它的含义都略有不同,取决于我们当时所处的层面,让我们慢慢梳理一下。